没有合适的资源?快使用搜索试试~ 我知道了~
融合XGBoost和图谱修正的公交通勤乘客目的地预测方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 122 浏览量
2022-11-28
20:32:14
上传
评论
收藏 554KB DOCX 举报
温馨提示
试读
14页
融合XGBoost和图谱修正的公交通勤乘客目的地预测方法.docx
资源推荐
资源详情
资源评论
0. 引言
通勤出行是公共交通服务的主体,北京市每日通勤出行量约占全市公共交通出行总量
的 65.8%
[1]
。明确公交通勤乘客下次出行目的地,有助于更好地把握通勤乘客出行需求。目
前,关于公交通勤乘客出行目的地需求预测,大多研究面向乘客整体均态特征开展。实际
上,不同公共交通个体乘客的工作类型、出行习惯等属性往往具有差异性
[2-3]
,势必对目的
地预测准确性产生一定影响。鉴于此,本研究旨在提出公共交通通勤个体乘客下次出行目
的地预测方法,以期准确掌握公交乘客个性化出行需求,提升公共交通精准化服务水平。
Lee
[4]
根据交通规划普查数据,评估了工作岗位数和工人职住平衡关系对通勤量的影
响,对不同工种的最低通勤需求量进行了预测。Castiglione 等
[5]
使用调查数据建立了基于活
动的模拟出行预测模型,结果表明:随着随机数序列变化和模型运行次数增加,预测结果
逐渐收敛。郑劲松
[6]
提取了城市轨道交通各站点客流比例、平均乘距、平均票价、分时断
面客流量等关键指标,通过联机分析预测了不同票卡类型客流和进出站客流。靳佳
[7]
基于
IC 卡数据,挖掘了公交出行起讫点及客流信息,并利用空间分析方法预测了居民公交出行
时空分布特性。郭婕
[8]
采用聚类分析法将通勤乘客分为不同类型,通过判定通勤乘客类型
与站点区段的匹配关系预测通勤乘客上车站点区段。Veldhuisen 等
[9]
建立了基于个人活动和
出行计划的离散选择模型体系,进而开展了居民出行行为预测,并采用出行调查数据和交
通系统服务水平验证了预测结果。
以往研究多采用现场调研和网上调查等手段获得抽样数据,通过统计分析方法识别并
预测样本乘客整体的出行总量及时空分布特征
[10-11]
;或基于已有乘客出行行为数据,利用
Logit 模型、重力模型等预测模型,预测未来出行 OD 等特性指标,侧重反映宏观出行特征
[4, 12]
。由于较少考虑不同类型公交乘客的出行行为差异,并且较大程度上忽略乘客的个体特
性和社会经济属性,公共交通通勤乘客目的地预测精度仍有较大提升空间。
在前期研究中,笔者已经汇聚了丰富的公交乘客社会经济属性数据,通过关联分析
RP 调查数据和公共交通多源数据,匹配获得了通勤个体出行链,并且面向公交通勤乘客实
现了高、中、低稳定性分类,识别出不同稳定性通勤乘客目的地的关键影响因素
[13-14]
,为
面向个体通勤乘客开展更加精细化的出行目的地预测提供了支撑。但是,由于不同稳定性
乘客目的地影响因素存在类似变量,需要寻求更加优秀的学习模型以规避分类出错的问
题。极限梯度提升算法(e Xtreme Gradient Boosting, XGBoost)
[15-17]
较多关注被已有分类器错
分的数据进而获得新分类器,有助于提高迭代成功率,为面向不同稳定类型的乘客目的地
预测提供了途径。同时,XGBoost 在代价函数中加入正则项,能够控制模型复杂度和防止
过拟合,并且对代价函数的二阶泰勒展开,促使目标数据优化逼近实际值,相比其他浅层
机器学习模型具有更高的预测精度和运算效率。另外,考虑到图谱能够准确表征分类别的
结构化知识,作者前期研究建立的个体公交乘客出行图谱可以提取个体乘客出行特性,并
且图谱转移概率能体现目的地发生关联性,可以进一步优化预测结果
[18]
。
因此,基于前期研究提取的不同稳定性公共交通通勤乘客出行链和出行目的地关键影
响因素,本研究以出行目的地显著影响因素和该次目的地为输入变量,下次出行目的地为
输出变量,通过 XGBoost 模型参数调优,实现高、中、低稳定性个体乘客下次出行目的地
预测。在此基础上,研究利用前期建立的个体公交乘客出行图谱转移概率,对预测结果进
行优化,以进一步提升预测精度。研究为提前掌握公交通勤乘客出行目的地提供方法支
撑,助力精细化和定制化的公共交通出行服务。
1. 数据基础
通过 RP 调查数据和公共交通多源数据的采集、预处理与关联匹配,提取反映出行过
程的通勤个体乘客出行链,为公共交通目的地预测模型的变量选取奠定支撑。
1.1 RP 调查数据
通过开展 RP 调查,获取乘客的公共交通出行行为信息。主要调查内容为:(1)IC 卡/
亿通行卡号;(2)乘客类别属性(通勤者/非通勤者);(3)出行特征(出行天数、上下班/上
下学出行次数、休闲类出行次数);(4)社会经济属性(性别、年龄、职业、受教育程度、
月收入和家庭小汽车数等)。
其中,将调查获得的卡号与刷卡数据匹配,提取乘客公共交通刷卡数据。乘客类别通
过出行目的(通勤/非通勤)界定。出行特征信息主要用于验证乘客问卷作答的一致性。
1.2 公共交通多源数据
依托北京城市交通协同创新中心和综合交通协同运行与超级计算应用技术协同创新平
台,获取北京市公共交通刷卡数据和线站数据
[19]
。其中,刷卡数据包括地面公交 IC 卡刷卡
数据和轨道 AFC 系统数据,有效字段主要包含卡号、线路号、公交上下车/轨道进出站编
号及时间;线站数据包括地面公交和轨道的线站数据,有效字段主要包含站点编号、名称
和经纬度等。基于上车时间将刷卡数据与线站数据进行排序和整合,通过换乘点时空阈值
判别提取个体出行链
[20]
,能够有效获得出行链起讫点、出行时间与距离等信息。
研究依据调查获得的卡号与公共交通刷卡数据进行关联匹配,获得 563 名通勤者和
296 名非通勤者的出行链数据。某通勤个体乘客出行链示意,见表 1。前期分析中采用关
联规则方法将通勤乘客为高、中、低 3 类稳定性的人群,实现了 302 名通勤乘客稳定性辨
识
[13]
。
表 1 个体乘客出行链示意
Table 1. Trip-chain data of individual passengers
上车站点
下车站点
卡号
出行
模式
上车时
间
下车时
间
上车线
路号
下车线
路号
出行距
离/m
上车
站点
下车
站点
经度
/(°)
纬度
/(°)
经度
/(°)
纬度
/(°)
24050273
地铁
2017-
04-01
T08.8
2017-
04-01
T08.5
4
1
8 115
北京
南站
木樨
地
116.378
39.864
116.337
39.908
24050273
地铁
2017-
04-01
T17.3
2017-
04-01
T16.9
1
4
8 115
木樨
地
北京
南站
116.337
39.908
116.378
39.864
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
24050273
公交
2017-
04-30
T17.4
2017-
04-30
T17:39
114
114
8 620
白云
桥西
开阳
桥南
116.340
39.897
116.347
39.867
下载: 导出 CSV
| 显示表格
2. 目的地预测方法
研究采用 XGBoost 算法构建不同稳定性通勤个体乘客下次目的地预测模型,并借助
图谱转移概率对预测结果进行修正。
2.1 XGBoost 集成学习算法
XGBoost 是基于 Boosting 的集成学习算法。该算法通过组合决策树和线型分类器等基
学习器,学习模型预测误差,改进目标函数,并定义树的复杂度,尽可能提高预测准确性
和效率
[17]
。
目标函数定义为
Obj(θ)=∑i=1nl(yi,y^i)+∑k=1KΩ(fk)Obj(θ)=∑i=1nl(yi,y^i)+∑k=1KΩ(fk)
(1)
式中:l(yi,y^i)l(yi,y^i)为损失函数;Ω(f
k
)为叶节点权重和树深度的正则化项,用于控
制模型复杂度。目标函数最小化,预测值越接近真实值,同时控制模型复杂度,防止过拟
合。其中,损失函数采用增量学习方法,y^(t)iy^i(t)为迭代 t 次后模型预测值,见式
(2)。
y^(t)i=∑k=1tfk(xi)y^i(t)=∑k=1tfk(xi)
(2)
式中:f
t
(x
i
)为第 t 次迭代加入的预测函数。
定义 Ω(f
k
)为叶节点总数与叶节点权重平方和函数。
Ω(fk)=γT+12λ∑j=1Tw2jΩ(fk)=γT+12λ∑j=1Tw2j
(3)
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3907
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功