没有合适的资源?快使用搜索试试~ 我知道了~
Hadoop支持下海量出租车轨迹数据预处理技术研究_吕江波1
需积分: 0 2 下载量 55 浏览量
2022-08-03
22:30:48
上传
评论
收藏 306KB PDF 举报
温馨提示
试读
4页
( 1) 与 GPS 设备有关的误差 ( 2) 与人为因素有关的误差,由于司机关闭车载 ( 1) 经纬度出界 ( 2) 采集时间错误 ( 3) 车辆状态错误 (
资源详情
资源评论
资源推荐
2016
年
6
月
第
3
期
城 市 勘 测
Urban Geotechnical Investigation & Surveying
Jun. 2016
No. 3
文章编号
: 1672
-
8262( 2016) 03
-
46
-
04
中图分类号
: P208. 1
文献标识码
: B
Hadoop
支持下海量出租车轨迹数据预处理技术研究
吕江波
1,2
,
张永忠
1,2
*
收稿日期
: 2016—03—04
作者简介
:
吕江波
( 1989—) ,
男
,
硕士研究生
,
主要研究方向
: GIS
应用与开发
。
( 1.
兰州交通大学
,
甘肃 兰州
730070; 2.
兰州市勘察测绘研究院
,
甘肃 兰州
730030)
摘 要
:
海量出租车轨迹数据预处理是轨迹数据挖掘和应用的前提
。
出租车轨迹数据是典型的大数据
,
传统的数据处
理技术无法解决大规模出租车轨迹数据误差分析和处理问题
,
文章在分析轨迹数据误差来源和误差类型的基础上
,
提出基于
Hadoop
的海量出租车轨迹数据预处理模型
,
使用
Hive
实现轨迹数据误差统计分析
,
设计
MapReduce
并行处
理程序实现轨迹数据预处理
。
实验结果表明
,
该模型可以有效解决大规模出租车轨迹数据预处理问题
,
处理方式可靠
性较高
,
大大提高了轨迹数据预处理效率
,
为后期轨迹数据深入挖掘和分析奠定了基础
。
关键词
:
轨迹数据
; Hadoop;
大数据
;
数据预处理
;
并行计算
1
引 言
随着卫星定位技术
、
无线通信技术和地理信息技
术的迅速发展
,
定位设备在车载以及移动终端上得到
广泛使用
。
许多城市的出租车都装载了定位设备
,
这
些设备会定时将其位置信息传至服务中心
,
由此汇聚
而成大规模的出租车轨迹数据
。
这些轨迹数据包含大
量信息
,
已经开始应用于很多重要领域
,
如城市规划
、
智能交通
、
人类行为模式研究以及能源消耗等
。
近年
来
,
由郑宇主导的
“
城市计算
”,
掀起了对
GPS
轨迹数
据处理和分析的热潮
。
他们通过出租车在某区域的连
通性评判区域规划的好坏
;
利用出租车轨迹数据感知
交通流量
,
为用户提供最快驾车路线和最佳拼车方案
;
利用出租车轨迹数据为出租车司机提供最短时间拉到
乘客的方案以及为乘客推荐最可能打到车的地点
[1]
。
童晓君利用出租车轨迹数据分析居民出行热点区域和
出行行为
[2]
。
张富峥利用出租车在加油站等待时间估
计加油站的排队长度
,
从而估计出此时加油站内车辆
数量以及加油量
。
将全城加油站数据汇总
,
便可以计
算出任意时刻有多少燃油被消耗掉
[3]
。
与此同时
,
轨
迹数据应用也面临着诸多挑战
,
首先
,GPS
定位误差和
人为因素导致轨迹数据存在许多不合理数据
,
这些数
据严重影响数据分析结果
,
因此
,
数据预处理成为轨迹
数据应用首先要解决的问题
;
其次
,
轨迹数据是典型的
大数据
,
以一个城市为单元
,
一天的出租车轨迹数据量
大小从几
GB
到几十
GB
不等
,
多日的数据更可达
TB、
PB
量级
,
常规的数据处理方式要处理如此大规模的数
据几乎是不可能的
,
即使勉强可以处理
,
也需要花费很
高的时间成本
。
大数据时代的到来
,
为海量轨迹数据
处理提供了解决方案
,Hadoop
作为目前主流的开源大
数据分析平台之一
,
为海量数据分布式并行处理提供
强大的平台支撑
。Hadoop
可以运行在廉价硬件构建
的计算机集群上
,
能够对大量数据进行可靠的
、
高效
的
、
可扩展的分布式处理
。
针对上述出租车轨迹应用中存在的数据误差和数
据量大难处理两大问题
,
本文以
Hadoop
平台为基础
,
通过分析轨迹数据误差来源
,
总结误差类型
,
研究误差
统计分析方法和处理方法
,
在此基础上提出基于
Ha-
doop
的轨迹数据预处理模型
,
实验证明该模型可以有
效分析和处理海量轨迹数据误差
,
解决轨迹数据量大
的处理瓶颈
,
处理方式更加可靠
、
高效
。
2
基于
Hadoop
的出租车轨迹数据预处理模型
研究
2. 1
轨迹数据误差来源
由于
GPS
定位本身存在误差
,
加之出租车在实时
动态获取数据
,
道路交通状态复杂性等原因
,
在海量的
出租车轨迹数据中存在许多不合理数据
,
虽然大数据
分析中有少许错误数据不会对分析结果产生影响
,
但
也要具体问题具体分析
,
少许的错误数据也会使结果
相差很多
。
例如
:
在计算出租车行驶距离时
,
因为位置
偏离使用错误的
GPS
定位坐标计算的距离肯定相差
很多
,
严重影响计算结果
。
我们将这些导致不合理数
据的原因大致分为两类
:
一类是与
GPS
设备有关的误
差
,
一类是与人为因素有关的误差
。
( 1)
与
GPS
设备有关的误差
。
主要有多路径效应
误差
、GPS
信号遮挡误差和
GPS
设备故障
。
多路径效
养生的控制人
- 粉丝: 18
- 资源: 333
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0