融合Markov与多类机器学习模型的个体出行位置预测模型.docx资源-CSDN文库

版权申诉

164 浏览量 2022-11-30 09:27:11 上传评论收藏 158KB DOCX 举报

资源详情

资源评论

随着信息通信技术的发展，数据通信速度和质量不断提升，城市居民的日常活动从现

实空间逐渐扩展至网络空间，越发离不开以智能手机为载体的移动互联网。现实空间行为

与网络空间上网行为联系日益紧密，探讨个体在现实空间与网络空间的活动差异，建立现

实空间活动与虚拟网络空间活动的关联

[1-2]

，有助于个体出行行为预测的研究。

现有研究对移动行为关注较多，在个体移动方面，有关注个体移动行为模式

[3-6]

、活动

空间

[7-11]

等方面的研究；在出行预测方面，常用的方法包含马尔可夫（Markov）模型、频

繁模式挖掘以及神经网络和机器学习方法

[12-14]

；在构建位置预测模型方面，也有学者取得

了系列成果

[15-17]

。随着现实空间出行行为与网络空间上网行为联系日益紧密，国内外学者

从实证分析、行为预测、相关性分析等角度对现实空间与网络空间行为间的关系展开了研

究

[18-21]

。但少有研究探讨手机上网行为特征对个体出行行为预测的影响，应用多模型融合

技术预测个体出行位置的研究也较少。Markov 预测模型能构建基于停留点语义的出行链，

据此进行出行位置的预测，所得结果与实际出行场景更为贴近。机器学习的多分类方法是

基于统计的学习方法，准确率较高，但可解释性较差。文献[22]发现融合多个差异较大的

分类模型更能提升模型学习的效果，提高准确率。因此，本文利用手机基站位置更新数

据、上网数据、兴趣点（point of interest，POI）数据等多源数据，融合上网行为特征、

出行时空行为特征及外部因素特征，基于频率分布图的自适应融合规则，融合 Markov 模

型、机器学习多分类模型的预测结果来进行个体出行位置预测。

1. 出行位置预测模型的融合方法

1.1 Markov 预测模型

Markov 预测模型的核心思想是将历史数据中当前状态转移概率最大的状态作为下一

状态的预测值。根据 Markov 理论中转移概率的定义，需要通过条件概率来计算从当前状

态转移到下一状态的概率。转移概率在应用于个体出行位置预测时，其定义可参考文献

[23]。Markov 模型根据对当前状态描述的不同，可以分为一阶 Markov 和 kk 阶 Markov 模

型。一阶 Markov 模型仅使用当前时段的位置，对训练数据要求较低；kk 阶 Markov 模型

则使用更多的历史状态数据，预测的准确率更高，但存在对训练数据要求高、更易冷启动

的问题。因此，综合考虑一阶 Markov、多阶 Markov 预测模型的预测结果，有助于提高预

测准确率。Markov 模型的构建如图 1 所示。首先根据手机用户的位置更新数据，识别停

留点及其语义，构建出行链；然后计算手机用户出行的 kk 阶转移概率 pti,jpi,jt，构建多个

Markov 预测模型并进行准确率分析。具体计算公式如下：

式中，DD 表示样本总体；pipi 表示第 ii 类样本占样本总体的比例；nn 表示总类别

数。

比较基于不同特征划分 DT 得到的基尼系数，选取基尼系数最小的特征 Y 作为 DT 划

分左、右子树的标准。基于 Y 特征划分的基尼系数的计算方法如下：

G(D,Y)=∥Dleft∥∥D∥⋅G(Dleft)+∥Dright∥∥D∥⋅G(Dright)G(D,Y)=‖Dleft‖‖D‖⋅G(Dleft)+‖Dright‖‖D‖⋅G(Dright)

(3)

式中，DleftDleft、DrightDright 分别表示划分后的左、右子树样本集。

2）RF 算法是集成学习引导聚集算法在 DT 上的改进版，是常用的多分类算法。其核

心思想是通过随机采样数据集、随机选择特征，构建多个独立的 CART 分类器，通过分类

结果投票决定最终分类结果。RF 算法是一种经典的装袋算法，对训练样本集进行有放回

的随机采样，构成多个不同的样本集，分别用于训练多个相对独立的弱分类器，并通过一

系列结合策略融合分类结果，形成强分类器

[22]

。但 RF 在构建 CART 基分类器时，是从样

本特征中随机选择 mm 个特征（mm 小于样本特征总数），并从 mm 个特征中选择一个

最优特征用于划分 DT 左、右子树。随机选择特征的个数 mm 能直接影响模型的偏差和方

差，mm 过小可能会导致模型存在较大偏差，因此通常利用交叉验证的方法选择合适的

mm，以保证预测模型的泛化能力。

3）kNN 算法的核心思想是每个样本都可以用它最接近的 k 个邻居来代表，kNN 通过

测量不同特征值之间的距离进行分类

[22]

。在 kNN 算法中，用于选择的邻居都是已正确分类

的对象，该方法依据样本与其最近邻的 k 个对象的类别来决定样本所属的类别。参数 k 的

选择对算法结果有重要影响，因此从 k=1k=1 起，重复使用检验集估计分类器的误差率，

直到确定最合适的 k 值，通常 k 不超过 20。

4）SVM 算法是一类按监督学习方式对数据进行二元分类的广义线性分类器，其基本

想法是求解能够正确划分训练数据集、几何间隔最大的分离超平面

[22]

。

利用机器学习方法进行个体出行位置预测的流程如图 2 所示。

图 2 机器学习预测模型训练流程图

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

融合Markov与多类机器学习模型的个体出行位置预测模型.docx

评论0

最新资源

融合Markov与多类机器学习模型的个体出行位置预测模型.docx

评论0

最新资源

相关推荐

一种周期时变马尔可夫室内位置预测模型 (2009年)

基于小波神经网络的电机转子位置预测模型

飓风预测模型

位置预测：时空贝叶斯模型

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

4个亲测好用的ChatGPT4渠道

2023泛娱乐社交出海手册-ZEGO即构科技

北森能力测评题库.zip

学术海报模板+论文科研+研究生

车载毫米波雷达DOA估计综述博文仿真代码

认知智能技术与产业研究报告2023

ST-LINK Utility 4.6.0

软件工程课程设计-基于苍穹外卖

chrome-win64.zip

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

几个可以免费使用ChatGPT4的网站.zip

1000份ppt模版，PPT模板优秀PPT

249个 ChatGPT 关键词汇总 中文版

由于找不到iUtils.dll,无法继续执行代码

干货分享无感无刷直流电机之电调设计全攻略 全97页

ST语言规则编程手册全面讲解ST语言

高项第四版十大管理、49个过程、五大过程组【趣味联想记忆口诀，助你一篇牢牢记住！】

李飞飞自传我看见的世界 The World I see

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

249个 ChatGPT 关键词汇总中文版

干货分享无感无刷直流电机之电调设计全攻略全97页