论文研究-基于Bi-LSTM-CRF的公交下车站点推断方法 .pdf

所需积分/C币:16 2019-08-15 889KB .PDF
评分

基于Bi-LSTM-CRF的公交下车站点推断方法,杨鑫,左兴权,公交IC刷卡记录中隐藏着丰富的乘客出行信息,目前多数城市中公交IC系统只记录了乘客的上车信息,下车信息缺失,为客流的分析和公交调��
国利技论文在线 http://www.paper.edu.cn 1<讠<n。考虑到每条线路对应的客流模式不冋,为了提高方法灵活性和缩小问题规模,本文 研究单条特定线路上的工作日期间下车站点恢复方法。 本文使用真实IC刷卡数据,如表1所示,每条刷卡记录包含以卜属性:IC卡号、上车时间 上车站点、线路号、行驶方向、下车时间、下车站点。IC卡号是脱敏后的唯一I卡标识符,行 驶方向根据车辆在线路上始发站的不同分为上行和上行,分别记为0,1。值得强调的是,本文使 用的公交线路采取分段收费的方式,上车刷卡,下车也需要刷卡,所以记录中会包含下车数据 信息,但是在本文的方法研究中只用到了上车相关的数据,下车站点和时间只用来做方法准确 性的验证。 表1:IC刷卡数据示例 IC卡号 上车时间上车站点线路号行驶方向下车时间下车站点 FCO02269B2015/9/508:09 0 2015/9/508:42 EC002269B2015/9/518:21 425 2015/9/518:54 除∫IC刷卡数据之外,本文还用到了包含大部分公交站点经纬度信息的GPS数据,每条记 录包含以下属性:线路号、站点号、站点经度、站点纬度。 3方法描述 木文将问题看成是一种序列化标记问题,每个乘客的乘午记录按照时间顺序排列得到乘 车序列,其中每条记录的卜车站点可以作为该记录的标记。本文采用有监督序列化标记方法, 可以分为四个步骤:标签获取、特征设计、模型构造和结果整合,下面依次进行介绍 3.1标签获取 本文基于对数据的观察发现了两种常见的行为模式:换乘和家-工作往返,基于这两种行 为模式,设计了推导下车站点的规则,能以较高的准确率得到部分记录的下车站点。 3.1.1换乘模式 换乘模式是指乘客在短时间内有两次乘坐记录,且上一次乘坐的线路沿途有与下一趟上车 站点相距较近的站点,则乘客很可能在距下一趟上车站点最近的站点下车。如图1所示,乘客 于t1时间在L1线路的o1站上车,并在不久后的t2时间又在L2线路上的o2站上车,如果a2站附近 有L1的站点d1,则乘客很有可能在d1站下车后移动一定距离来到o2站继续乘车,可以取L1线路 中距o2距离最近的站点作为d1 这种方法可以看成是增强了时间和距离限制的行程链方法,需要满足两个限制条件:短时 间内连续乘车和可能的下车站点不能距离下趟上车站点过远,结合团7对行走距离的估计,本 文默认将时间阈值没置成45min,距离阈值为1.0lkm。 山国利技论文在线 http://www.paper.edu.cn 1 图1:换乘模式示意图 3.1.2往返模式 往返模式是针对城市中有很多规律岀行的群体,如学生、职工等,这类人群的出行模式较 为单·,通常表现为上午离家,下午或者晚上返家,特点是离家与返家的行程之间会相隔 段时间,并且家和工作站点是乘客上车频次较多的站点。于是本文将乘车时间划分为三个时间 段,11:00之前为上午,11:00-15:00为中午,15:00之后为下午和晚上,设计了以下规则 (1)统计乘客在各个时间段的刷卡频次,将乘客分为早午,早-晚,午-晚三种类型; (2)乘客有家和工作两个代表站点,取对应时间段中乘坐频次最多的站点作为代表站点。 对符合该模式的乘客记录进行推断时,先判断在当前时间乘客是应该离家还是回家,再判 断此时车辆行驶方向是否和相应站点的方向相符,如果是则将相应站点视为下车站点,否则不 进行推断。 32特征设计 本文主要抽取了乘客的基本行程特征,覆盖上车站点、上车时间和站点距离等,具体可以 参照表2 表2:特征说明表 特征名 含义 board stop 上车站点 board hour 上车时间的小时部分 board weekday上车时间的工作日部分 stop distance上车站点到各站点的距离 ClOsest stop 距下一趟行程的上车站点最近的站点 closest distance距下一趟行程的上车站点最近的距离 3.3模型构造 本文采用在序列化标记问题中表现出色的Bi- LSTM-CRE模型,如图2所示,这是一个三层 的结构,第一层是输入层,t=1,2,…,n表示序列的时间步,X表示第i个时间步时的输入特 征;第二层是一个双向LSTⅥ模型,由两个LSTM单元组成,一个将状态从前向后传递,另 国利技论文在线 http://www.paper.edu.cn 个将状态从后向前传递,第个时间步的输出是将这两个LSTM单元的输出拼接起来,这样可以 有效地考虑了序列前后的信息;三层是一个CRF,该结构通过引入状态转移矩阵A,然后再设 定矩阵尸为模型的输出。其中A;表示时序上从第个状态转移到第j个状态的概率,B;表示在输 入观测序列中第个词为第个标注的概率。则函数S(X,Y)=∑1(4+1+Pm)为与观测序 列X对应的标注序列Y=(y1,y,…,mn)的预测输出。 CRE Tagu forward Bi-LSTM STM LS TM backward Input 图2:Bi- LSTM-CRE模型示意图 34结果整合 本文得到结果由两部分组成,是强规则推断岀的结果,准确率高,占据少量数据:二是 算法推断,可以得到所有记录的结果。在生成最终结果时,会优先选择规则推断的结果,规贝 推断无法覆盖的,使用算法推断的结果 4实验结果 本文使用某城市公交线路2015年9月到2015年11月的数据验证本方法的准确性,根据乘客 在目标线路上的刷卡次数和站点数不同,可以将乘客分为三种类型:单乘坐、单站点和多站 点,单乘坐表示只有一次乘坐记录,单站点有多次乘坐记录但是只在一个站点上车,多站点表 示多次乘坐且在多个站点上车,不同类别乘客数和数据量的统计情况如表3所示 表3:实验数据概况 乘客类型记录数乘客数 多站点1.018508114,997 单站点 66.72220.693 单乘坐132,095132,095 整体1.217,325267,785 国利技论文在线 http://www.paper.edu.cn 本文采用的指标是推测结果的准确率,允许一个站点的预测误差,即预测站点在真实站 点上下一个站点都视为准确,将7:00到9:00和17:00到19:0视为交通高峰期,其余时间段为低峰 期。 表4表示换乘推断和高峰时期的往返推断得到的准确率和数据量,合并标记时优先使用换 乘推断的结果。可以看岀换乘方法得到的标记准确率较高且在不同类别乘客数据中比较稳定, 但是数据量占比较低;髙峰吋往返推断的准确率较换乘偏低,但是能对较多旳数据进行推断, 尤其在多站点类型乘客中。 表4:规则推断出的标记的准确率和数据量 准确率 乘客类型 数据量 换乘高峰往返合并换乘高峰往返合并 多站点0 0.83 0.860.12 0.35 0.44 单站点0.950780880.160.190.32 单乘坐0.9 0.68 0.830.14 0.07 0.2 整体0.90.830.860.120320.41 本文选取了标记占比不低于0.2的序列,按9:1的比例分为训练集和验证集,训练集中的序 列去除了没有被标记的记录,其余数据均为测试集,三者的统计情况如表5所示。 表5:不同类型乘客训练集、验证集和测试集数据量分布 多站点 单站点 单乘坐 训练验证测试训练验证测试训练验证测试 0.380.040.580.380.040.580.180.020.8 本文在训练过程中根据模型对验证集的标记预测准确率设置了早停策略,并将结果和传统 的行程链方法进行了对比。两种方法各个时段的准确率如表6所示,木文方法的最终结果会用 已经推断出来的结果替换掉部分算法推断的结果,所以分为两部分分别作∫统计。从数据中可 以看出,无论是从整体数据还是区分三种数据集中,本文的方法在各个时段均优于传统的行程 链方法。 表6:实验结果 行程链准确率 纯算法准确率 算法+标记准确率 乘客种类 平均高峰低峰平均高峰低峰平均高峰低峰 整体0.5980.610.58707580.79307260.7720.8060.742 多站点0.6130.6210.6050.7850.82207480.7970.8290.766 单站点0.5250.5210.5290.6640.6620.6650.6940.6950693 单乘坐0.4770.4670.4810.6080.6160.6050.6220.6310618 国利技论文在线 http://www.paper.edu.cn 5结论 本文提出了换乘和往返推断两种强规则,并用它们得到了一定数量的高准确率的标记,结 合 Bi-LSTM-CRF模型序列化地推断出IC刷卡记录中缺失的下车站点。使用大量的数据验证了 方法,实验表明,本文方法较其他比较方法表现更好,不仅为公交发车频次的优化和公交线路 规划提供依据,而且有利于形成乘客的公交出行轨迹。后续研究中,我们将与更多的方法进行 比较,并进一步改进方法来提升准确率。 参考文献( References) [1 Wang Y, Zhang D, Hu L, et al. A datd-drivenl and optimal bus scheduling Inodel with time- dependent tra fic and demand[. IEEE Transactions on Intelligent, Transportation Systems, 2017,189):2443-2452 2 Barry J, Newhouser R, Rahbee A, et al. Origin and destination estimation in New York City with automated fare system data J. Transportation Research Record: Journal of the Transportation Research Board, 2002(1817): 183-187 3 Zhao J, Qu Q, Zhang F, et al. Spatio-Temporal analysis of passenger travel patterns in massive smart card data[J]. IEEE Transactions on Intelligent Transportation Systems, 2017 18(11):3135-3146 4 Zhang F, Yuan N J, Wang Y, et al. Reconstructing individual mobility from smart card transactions: a collaborative space alignment approach[ J. Knowledge and Information Sys- tems,2015,44(2):299-323 5 Jung J, Sohn K. Deep-learning architecture to forecast destinations of bus passengers from entry-only sInart-card data[J. IET Intelligent Tranlsport SysteIns, 2017, 11(6 :334-339 [6 Young T, Hazarika D, Poria S, et al. Recent trends in deep learning based natural language processing[J. ieee Computational intelligen Ce magazine, 2018, 13 (3) : 55-75 7 Li T: Sun D, Jing P, et al. Smart card data mining of public transport destination: a literature review[J. Information, 2018, 9 (1):18

...展开详情
立即下载 最低0.43元/次 身份认证VIP会员低至7折
举报 举报 收藏 收藏
分享
195KB
论文研究-基于B/S模式的即时通讯软件的设计 .pdf

基于B/S模式的即时通讯软件的设计,周柳阳,张云龙,即时信息 (Instant messaging,简称IM),指可以在线实时交流的工具,也就是通常所说的在线聊天工具。它较传统的通讯方式有着不可比拟的��

2019-08-19
1.04MB
论文研究-基于B-list的最大频繁项集挖掘算法.pdf

针对现有的最大频繁项集挖掘算法挖掘时间过长、内存消耗较大的问题,提出了一种基于构造链表B-list的最大频繁项集挖掘算法BMFI。该算法利用B-list数据结构来挖掘频繁项集,并采用全序搜索树作为搜索空间,然后采用父等价剪枝技术来缩小搜索空间;最后再结合基于MFI-tree的投影策略实现超集检测来提高算法的效率。实验结果表明,BMFI算法在时间效率与空间效率方面均优于FPMAX与MFIN算法。该算法在稠密数据集与稀疏数据集中进行最大频繁项集挖掘时均有良好的效果。

2019-07-22
428KB
论文研究-基于B/S架构的中小型电子政务应用系统的研究 .pdf

基于B/S架构的中小型电子政务应用系统的研究,邓颖俊,张维华,电子政务建设是今后一个时期我国信息化工作的重点,并对于推进政府职能转变具有十分重要的意义。B/S架构是瘦客户结构,属于三层技

2019-08-14
356KB
论文研究-基于B-Snake的运动目标检测跟踪 .pdf

基于B-Snake的运动目标检测跟踪,张勇,郑林,本文对传统Snake模型和三次B样条曲线进行了分析研究,根据离散化B样条曲线的性质,利用三次B样条曲线来描述目标轮廓线,结合主动轮�

2019-08-15
316KB
论文研究-基于B/S模式下学生信息管理系统的设计 .pdf

基于B/S模式下学生信息管理系统的设计,高攀,张玮,学生信息管理系统作为一种信息管理软件,既可以帮助各管理部门快速有效地完成各种信息录入、查询和修改的计算机管理,又可以对部

2019-08-15
241KB
论文研究-基于B/S的高校助学贷款管理系统的开发 .pdf

基于B/S的高校助学贷款管理系统的开发,袁金巧,,为资助经济困难学生顺利完成大学学业,享受高等教育,国家推出了助学贷款政策。高校助学贷款管理工作涉及部门、环节较多,而目前

2019-08-15
450KB
论文研究-基于BIP协议的高速OTA下载系统的设计 .pdf

基于BIP协议的高速OTA下载系统的设计,廖东方,周鹏,文章首先简单介绍了目前基于短消息方式的OTA下载系统中存在的不足,然后提出了一种基于BIP协议的高速OTA下载系统的模型,系统采取了

2019-08-20
1.55MB
论文研究-基于Bézier曲线的虚拟人皮肤变形方法研究.pdf

针对虚拟人皮肤表面参数表示方法中曲面形状难以控制、曲面间平滑连接不易实现的不足, 研究了一种基于Bézier曲线的虚拟人皮肤表面变形方法; 结合插入过渡段的人体分段方法和径向截面法实现了对Bézier曲线形状的有效控制, 克服了传统参数表示方法中曲面难以平滑连接及皮肤表面细节难以描述的缺点, 并实现了大臂肌肉和肘部皮肤随肘关节角度变化的实时变形。

2019-07-22
1.69MB
论文研究-基于BIP框架的DPU系统建模与验证.pdf

DPUdata process unit, 数据处理单元是嵌入式系统中的一个典型组件, 被广泛应用于太空领域, 它在层次化的嵌入式系统架构中起到承上启下的作用。保证这类安全攸关系统可靠性的主要方法包括冗余容错、测试和仿真。近年来, 形式化方法作为确保可靠性的一种重要补充, 得到了广泛的关注。BIPbehavior interaction priority是一个通用的系统级形式化建模框架, 支持层次化和模块化, 包含一套支持建模、模拟和验证的工具集。给出了一种基于BIP框架对DPU进行系统级建模与验证的一般方法, 总结了一套使用BIP框架对DPU建模应遵循的原则及技巧。以航天领域一个真实DPU系

2019-07-22
351KB
论文研究-基于Büchi自动机的UML模型一致性研究 .pdf

基于Büchi自动机的UML模型一致性研究,张自强,刘林霞,随着UML在系统建模中的广泛使用,模型间的一致性问题越来越突出。目前解决此问题的形式化方法主要是将UML模型转换为现有检测工具的

2019-08-16
413KB
论文研究-基于B/S模式的远程虚拟终端的研究与设计 .pdf

基于B/S模式的远程虚拟终端的研究与设计,桂振文,,以自动化领域工业控制系统作为远程监控对象,研究Web 远程监控的信息交互设计思想,设计一种基于虚拟桌面的浏览器应用访问服务,将先

2019-08-15
871KB
论文研究-基于B-P神经网络的环境空气质量预测模型.pdf

结合Canny算子提取图像的边界,利用边界信息可以实现大块连通区域的自然分割,同时使用颜色插补的方法来代替传统的金字塔采样,让模板自动匹配经上述分割后的各个待测区域。实验结果证实该方法对于包含部分遮挡、肤色干扰等较复杂环境下的图片的检测率有很大提高。

2019-09-16
251KB
论文研究-基于B/S架构的招商评估系统设计与实现 .pdf

基于B/S架构的招商评估系统设计与实现,赵立新,宋静华,本文在总结和介绍国内外招商评估方面研究成果的基础上,为大连长兴岛临港工业区开发了一套有实际应用背景的评估体系。本系统包括

2019-08-16
236KB
论文研究-基于B/S架构的路由监测系统 .pdf

基于B/S架构的路由监测系统,温泉,,随着网络在国民经济和社会生活中的重要性日益显现,网络的健壮性和可靠性就越来越受到人们的重视。而高效稳定的路由与之密切相关

2019-08-18
1.5MB
论文研究-基于Bézier曲线的虚拟手术切割新算法.pdf

针对虚拟手术中现有切割算法存在的切口不光滑、对重组网格依赖大、容易生成病态网格等问题, 提出了基于Bézier曲线的切割算法与切口边界独立绘制方案, 在不增加重组网格的基础上, 实现光滑的切口绘制; 通过在切割区域边界点与Bézier曲线之间直接添加弹簧约束的方式, 使模型能够控制切口的张裂度, 实现切口的弹性张开; 最后对切割操作中含摩擦力与不含摩擦力的反馈力计算模型进行了理论分析并与实测值进行了对比; 结果表明该切割算法在视觉与触觉反馈方面都表现出非常好的逼真性。

2019-07-22
225KB
论文研究-基于BBC电子商务模式的用户权限控制.pdf

通过对传统的用户权限控制方法的全面分析,结合BBC电子商务模式用户多样化的特点,提出了一种基于角色和用户功能项相结合的权限控制方法,并给出了具体的实现方法。

2019-07-22
174KB
论文研究-基于B样条的曲面生成及加工仿真研究.pdf

构造并生成了B样条曲面以产生给定型值点的复杂零件。以参数线加工为主要方法详细研究了该零件的加工轨迹、刀心轨迹以及切削数据的生成等;采用OpenGL技术对整个加工过程进行仿真实现,获得了一个较好的加工代码生成及轨迹验证工具。

2019-07-22
260KB
论文研究-基于B树的闪存文件传输层设计优化 .pdf

基于B树的闪存文件传输层设计优化,葛俊,祝永新,本文根据闪存(flash)文件系统的特点,针对B 树索引文件的磁盘IO做了优化,降低了flash的磨损。本文通过引入IO中间层,使用缓存机制、顺

2019-08-15
img

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐