基于生存分析参数分布的公交车旅行时间模型构建方法技术领域
本发明属于交通智能管理和控制技术领域,具体涉及一种基于生存分析参数分布
的公交站台毗邻区公交车旅行时间评价模型构建方法。
背景技术
随着经济发展和城镇化进程加快,人们出行频率的增加和生活就业半径的扩大,
对公共交通服务水平及公交站台覆盖率提出更高的要求,因此近年公交站台设施建设速度
加快,是公共交通运营系统的重要保障和支撑。然而,在公交站台毗邻区公交车运营效率低
下已经成为制约城市公交发展的主要问题之一,由于机动车与公交车的相互作用和违规行
为影响、非机动车与公交车的交互作用和违规行为等因素,严重影响了公交车在公交站台
毗邻区内的行驶时间和相应到站停靠服务位置和时间,从而增加公交车的延误时间和行驶
危险性,也对城市公共交通的正常运行和市民便捷出行产生影响,成为制约公共交通发展
的一大瓶颈。
现有研究不能在公交站台毗邻区内公交车运行的影响因素进行判别,也不能在影
响因素干扰下公交车的理论旅行时间进行定量计算,因此公共交通管理相关部门无法对公
交站台毗邻区公交车运营进行正确评价。而目前交通管理相关部门只是定性化做出相应的
措施,如增加视频监测影响旅行时间的影响因素并进行相应管理,但相关部门没有充分运
用实际数据,实时对公交车旅行时间进行鉴别,更不能对公交车运营后评价进行定量和定
性化的系统研究,并没有从相关研究中得到很好的解答。因此应将公交站台毗邻区公交车
旅行时间的定量化研究纳入到城市公交规划建设中,并根据公交车运行状态评价采取应对
措施来提高公交车的运营效率,实际也是以人为本、公交优先的一个具体体现。
发明内容
发明目的:针对现有技术中对公交站台毗邻区公交车旅行时间后评价研究的不
足,本发明基于现有智能交通控制与管理技术提出了一种基于生存分析参数分布的公交车
旅行时间评价模型构建方法,基于本发明构建的模型能够定量评估公交车旅行时间,从而
可以针对其显著影响因素实施有效的管控措施。
技术方案:为实现上述发明目的,本发明的技术方案为:
一种基于生存分析参数分布的公交车旅行时间模型构建方法,包括如下步骤:
(1)将公交站台毗邻区划分为上游、站台和下游区间,采集公交站台毗邻区视频数
据,获取每辆车在三个区间的旅行时间以及相对应的影响变量数据;
(2)将公交站台毗邻区公交车旅行时间比拟为生存分析中时间持续期,假设其近
似服从多种参数分布从而建立不同生存分析模型,通过相关性分析计算影响变量之间的相
关系数,得到相关性较低的影响变量,并带入服从参数分布的生存分析模型中求解,选取最
优模型;
(3)对最优参数生存分析模型的概率密度函数进行积分得到期望函数,作为公交
车旅行时间评价模型。
所述步骤(1)中,所述影响变量包括小汽车违规时间比例、非机动车违规时间比
例、小汽车流量、非机动车流量、公交车停靠时间、公交车延误、公交车停靠位置和公交车是
否换道。
所述步骤(2)中,服从多种参数分布形式包括指数、威布尔、对数正态、Gompertz和
广义Gamma分布。
所述步骤(2)中,数值型变量之间的相关性用简单Pearson相关系数来衡量;顺序
变量与顺序变量或与数值型变量之间的相关性,用Spearman相关系数来衡量;涉及到分类
变量的相关性用交叉列联表中对称度量的相关性指标来体现。
所述步骤(2)中,对每一个特定的参数分布计算AIC和BIC值,选取AIC或BIC值最
小,或AIC和BIC值均最小的作为最优参数模型。
有益效果:本发明方法基于生存分析参数分布构建公交车旅行时间评价模型,方
法简单易行,评价模型准确性高,可以基于本发明构建的模型通过影响变量的输入数据,计
算理论公交车旅行时间,从而为运营管理者针对影响变量实施管控措施提供理论依据,并
可预测变量对于旅行时间影响变化情况,便于运营管理者为用户提供更好的公交车运营信
息服务,从而提供公交竞争力,使用本发明方法构建的理论模型计算公交站台毗邻区公交
车旅行时间具有实际工程应用价值。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例中公交站台检测点和划分区间具体示意图。
图3为下游区间公交车旅行时间期望值与实际观察值之间的拟合关系图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明
而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价
形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于生存分析参数分布的公交车旅行时间
模型构建方法,主要包括如下步骤:
(1)获取每辆公交车在站台毗邻区的上游、站台和下游三个区间的旅行时间以及
相对应的影响变量数据。将公交站台毗邻区分为上游、站台和下游三个区间,将每辆公交车
作为研究对象,通过视频设备采集公交站台毗邻区公交车在三个区间视频数据,并从视频
数据中获取每辆公交车在三个区间的旅行时间数据,以及每辆车旅行时间相对应的影响变
量数据。
(2)将旅行时间比拟为生存分析中时间持续期,构建旅行时间近似服从不同参数
分布的生存分析模型,并将相关性较低的影响变量带入模型中求解进而选取最优模型。公
交站台毗邻区内的公交车旅行时间,属于广义生存时间的范围,可将其比拟为生存分析中
时间持续期,从而运用生存分析方法进行研究。旅行时间为公交车通过相应区间行驶状态
的持续,存在明显的持续期过程起始时刻-持续时间-结束时刻。
公交车旅行时间分布可用以下概率概率密度函数、生存函数和风险函数来描述。
假设公交站台毗邻区内的公交车旅行时间近似服从某个参数分布,则可以运用数学性质更
好的参数模型进行分析。且参数方法中旅行时间有多种可供选择的分布形式,如指数、威布
尔、对数正态、Gompertz和广义Gamma分布等。
建立公交车旅行时间评价模型前,先需要对数据的质量进行相关性检查。可通过
相关性分析计算变量之间的相关系数,来检验两变量(或样本)间的相关性。数值型变量之
间的相关性可直接用简单Pearson相关系数来衡量;顺序变量与顺序变量或与数值型变量
之间的相关性,需要用Spearman相关系数;而涉及到分类变量的相关性则需要用交叉列联
表中对称度量的相关性指标来体现。在删除任何高度相关的变量时,还需要结合来自其它
研究的信息,若其它研究表明给出的变量对因变量有重要影响,则它仍应该保留。
确定各协变量之间都不存在较强得相关性,将选取变量带入服从参数分布生存分
析模型中求解,常采用AIC(Akaike information criterion)和BIC(Baysian information
criterion)指标不仅能衡量特定参数模型中变量优劣性,而且可用来选择最优的参数模
型。对每一个特定的参数分布可以计算AIC和BIC值,选取AIC或BIC值最小,或AIC和BIC值均
最小的作为最优参数模型,表明该模型拟合效果越佳。
(3)结合选取得最优参数模型,对其概率密度函数进行积分得到期望函数,
并且期望函数可作为公交车旅行时间评价模型。进一步地可以结合实时测量获取
的旅行时间和显著影响变量数据,可利用公交车旅行时间评价模型计算公交车在相应区间
的旅行时间,并与实际测量的旅行时间进行对比,从而验证模型的准确性。
下面本实施例用在南京市选择机动车与非机动车无物理隔离设施的道路中途公
交站台作为研究对象,进一步说明本发明方法的实施细节并验证本发明方法的有效性。该
类型公交站台特征是:通过道路标线来分离机动车道和自行车道,公交站台设置在人行道
上,如图1所示。
以该类型公交站台为例,说明公交站台毗邻区设置检测点的位置,并在同时能够
包括横断面1、2、3和4周围交通情况和停靠站台服务情况的高空位置安装视频检测设备,例
如各检测点之间相隔20米,具体距离长度可根据实际情况适当调整,如图2所示。
下面用在南京市选择符合上述类型标准1个公交站点,2013年5-7月晴朗天气下在
高处建筑物放置摄像机进行拍摄获得数据。在视频上标记横断面1、2、3和4,从而通过视频
记录公交车经过横断面1、2、3和4的瞬时行驶时间,并记录与旅行时间相对应的影响变量,
如下表1所示。
在视频数据库中总共采集该类型公交站台的176个公交车范例,选取了公交车毗
邻区范围内划分的3个区间的行驶时间数据,将公交站台类型所有统计的公交车3个区间的
行驶时间和影响变量组合成数据样本。
表1影响变量说明
生存分析方法通常采用三个函数来刻画生存时间t的分布特征:(1)反映个体生存
时间超过t的概率生存函数;(2)反映特定事件在t时刻发生的非条件概率概率密度函数;
(3)反映个体在下一瞬间结束的概率风险函数。且参数方法中风险函数有多种可供选择的
分布形式,如指数、威布尔、对数正态、Gompertz和广义Gamma分布等。
首先令公交站台毗邻区公交车旅行时间为T,假设时间对数logT与变量之间存在
如下线性关系:
其中,Xj和βj为影响变量和待求解的影响变量系数,β0为待求解的常量系数,j=1,
2,...,p,p为影响变量的数目,σ(σ>0)是未知的刻度函数,ε为随机误差项并且为随机变
量,概率密度函数为g(ε,d),生存函数为G(ε,d),d为未知参数,这表明公交站台毗邻区公交
车旅行时间T与随机误差项的分布有关。
假设公交站台毗邻区公交车旅行时间风险函数近似服从指数分布,则可运用以下
数学性质更好的参数模型进行分析。令上述公式(1)中的σ=1,则公交站台毗邻区第i个公
交车旅行时间T与变量的关系如下:
其中i=1,2,...,n,n为采集的公交站台毗邻区的样本数据中
公交车的数量,εi是独立同分布的随机变量,且服从双指数分布。双指数分布的概率密度函
数g(ε)和生存函数为G(ε)分别为:
公交站台毗邻区公交车旅行时间T的概率概率密度函数可通过如下的推导求出:
其中ε=(logt-μ)/σ,由于g(ε)服从双指数分布,把其概率密度函数代入上式(5),
则可得T的概率密度函数为:
引入变量的影响,所以令可推导出第i个公交车旅行时间Ti的概率密度函
数如下所示:
假设公交站台毗邻区公交车旅行时间服从参数为λ和γ的威布尔分布时,类似过
程可推导出第i个公交站台毗邻区公交车旅行时间Ti的概率密度函数如下所示:
假设公交站台毗邻区公交车旅行时间服从正态分布时,
其中,Φ为标准正态分布函数。类似上述的推导过程,可得第
i个公交车旅行时间Ti的概率密度函数如下所示:
假设公交站台毗邻区公交车旅行时间服从正态分布Gompertz时,可得第i个公交
站台毗邻区公交车旅行时间Ti的概率密度函数如下所示:f(t)=λi exp[γt-λi/γ(eγt-
1)]。
当公交站台毗邻区公交车旅行时间T服从一个参数为μi,σ2和κ三个参数的广义伽马分布
时,其概率概率密度函数为:
其中,γ=1/κ2,z=sign(κ)[(logt-μ)/σ],s=γeκz,Φ(z)是标准正态函数。I(γ,s)是不
完全Gamma函数,Γ(γ)是完全Gamma函数。当参数σ和κ取不同数值时,指数分布、威布尔分
布和对数正态分布都属于广义Gamma分布簇。
在公交站台上游区间,根据表1给出的变量的数据类型,分别采用对应的相关系数
计算方法,若变量之间的相关性检验值小于0.05,则拒绝变量之间相关系数为0的原假设,
说明这些变量之间的相关系数显著不为0,但具体的相关程度由相关系数值来体现。变量间
相关系数的绝对值一般小于0.40,则表明它们之间只是存在极低或低度的相关程度。在公
交站台毗邻区上游区间,只有公交车停靠时间和公交车停靠位置以及公交车延误三者之间
的相关系数大于0.40,说明三者之间存在一定的中度相关,选取公交停靠时间保留并带入
模型计算。在公交站台毗邻区站台区间,所有变量之间的相关系数都小于0.40,所有变量被
选入模型进行计算。在公交站台毗邻区下游区间,所有变量之间的相关系数都小于0.40,所
有变量被选入模型进行计算。
表2公交站上游区间各模型的影响变量系数
表3公交站站台区间各模型的影响变量系数
表4公交站下游区间各模型的影响变量系数
表2-4给出在公交站台上游区间、站台和下游区间内在考虑变量影响下各个模型
的拟合结果(表中C表示被选入模型的影响变量系数,P表示检验显著性数值,表中省略了影
响不显著变量,即显著性p值小于0.1的变量),从最后两行的数据来看,广义伽玛分布模型
对应的BIC和AIC值都是最小,由于广义伽玛分布模型是指数、威布尔和对数正态模型的广
义分布簇,因此选取其中数值最小的对数正态模型作为具体最优模型,并且表3中为对数正
态模型的广义伽玛分布模型对应的BIC和AIC值最小,综上所述说明对数正态模型最优。表
2-4还给出了变量影响下各模型协变量系数的估计结果,在上游区间对公交车旅行时间产
生影响的变量是公交车停靠时间和非机动车流量;在站台区间对公交车旅行时间产生影响
的变量是小汽车流量、公交车延误和公交车停靠位置;在下游区间对公交车旅行时间产生
影响的变量是小汽车流量。
图3还给出了下游区间公交车旅行时间期望值与实际观察值之间的对比拟合结
果,在下游区间对公交车旅行时间期望值与实际观察值拟合效果值为0.7513,总体而言,该
模型的评价结果较好。
因此可以采用基于生存分析参数分布模型,结合显著影响公交车运行的变量,计
算理论公交车旅行时间,并可与实际旅行时间进行对比分析,从而对公交车旅行时间准确
性进行判别,进而评价公交车运营效果,便于决策者更好地进行管控决策,从而提升公交系
统运营服务质量。