没有合适的资源?快使用搜索试试~ 我知道了~
针对行程时间点预测不能描述预测结果的可信度问题,以高速公路收费系统作为基础数据源,提出基于Bootstrap的高速公路行程时间区间预测模型,通过范围概率(PICP)、预测区间平均宽度(MPIW)以及综合指标(CWC)反映区间预测性能.对预测模型建模和Bootstrap置信区间估计方法两个关键步骤进行分析和实证,比较小波神经网络和K最近邻两种常用数据驱动方法的预测误差,并分析4种Bootstrap置信区间估计方法的区间预测性能.在相同的置信水平下,Percentile Bootstrap-KNN模型的综合指标值CWC最小,说明该模型区间预测性能最佳.对陕西省高速公路某热点OD进行实例分析,结果表明,采用相同预测算法的区间预测比点预测的误差小,且预测区间宽度可以表征预测结果的可信度和参考价值.
资源推荐
资源详情
资源评论
第 33卷 第 11期 控 制 与 决 策 Vol.33 No.11
2018年 11月 Control and Decision Nov. 2018
文章编号: 1001-0920(2018)11-2080-07 DOI: 10.13195/j.kzyjc.2017.0729
高速公路行程时间Bootstrap-KNN区间预测分析与实证
陈娇娜
1†
, 张 翔
2
, 张生瑞
3
(1. 西安石油大学 电子工程学院,西安 710065;2. 中交第一公路勘察设计研究院有限公司,
西安 710075;3. 长安大学 公路学院,西安 710064)
摘 要: 针对行程时间点预测不能描述预测结果的可信度问题, 以高速公路收费系统作为基础数据源, 提出基于
Bootstrap 的高速公路行程时间区间预测模型, 通过范围概率 (PICP)、预测区间平均宽度 (MPIW) 以及综合指标
(CWC)反映区间预测性能. 对预测模型建模和 Bootstrap置信区间估计方法两个关键步骤进行分析和实证, 比较小
波神经网络和 K 最近邻两种常用数据驱动方法的预测误差, 并分析 4 种 Bootstrap 置信区间估计方法的区间预测
性能. 在相同的置信水平下, Percentile Bootstrap-KNN 模型的综合指标值 CWC 最小, 说明该模型区间预测性能最
佳. 对陕西省高速公路某热点 OD 进行实例分析, 结果表明, 采用相同预测算法的区间预测比点预测的误差小, 且
预测区间宽度可以表征预测结果的可信度和参考价值.
关键词: 交通工程;行程时间;Bootstrap;置信区间;K 最近邻;区间预测
中图分类号: TP491 文献标志码: A
Analysis and empirical study on highway travel time interval prediction
based on Bootstrap-KNN
CHEN Jiao-na
1†
, ZHANG Xiang
2
, ZHANG Sheng-rui
3
(1. School of Electronic Engineering, Xi’an Shiyou University,Xi’an 710065,China;2. CCCC First Highway
Consultants Co Ltd,Xi’an 710075,China;3. School of Highway, Chang’an University,Xi’an 710064,China)
Abstract: With the data source from highway charge system, the prediction model is established based on Bootstrap
to improve the reliability of point prediction in travel time. Three indexes are used to evaluate the interval prediction
performance, including prediction interval coverage probability(PICP), mean prediction interval width(MPIW), and
coverage width-based criterion(CWC). Two key steps are analyzed and verified with actual data in modeling. As the
methods used frequently in data-driven, the wavelet neural network and K nearest neighbor are compared about prediction
error. The confidence interval prediction performance is analyzed among four kinds of Bootstrap methods. Under the
same confidence level, the result shows that Percentile Bootstrap-KNN is the best with the minimum CWC. The proposed
model is validated by Shanxi expressway in the case study. It is proved that interval prediction is better than point
prediction under the same algorithm, as the reliability and value can be reflected by the prediction interval width.
Keywords: traffic engineering;travel time;Bootstrap;confidence interval;K nearest neighbor;interval prediction
0 引
行程时间预测是先进的高速公路出行信息系统
中不可缺少的部分, 行程时间的变化具有非线性和
非平稳的特点
[1]
,可靠的预测结果能够帮助出行者决
策,而缺乏有效性保障的预测结果将不会被参考或关
注. 因此, 行程时间预测结果的可靠性量化具有重要
的实用价值.
行程时间预测研究的主要方法包括时间序列方
法
[2]
、卡尔曼滤波
[3-4]
、神经网络
[5]
、线性回归
[6]
和
支持向量机
[7-8]
等, 车辆检测器
[9-10]
、收费系统
[11-12]
、
浮动车
[13]
和蓝牙
[14]
等多种数据源也在该领域得以
应用. Zhang 等
[15]
和毕松等
[16]
综述了现行的行程时
间预测方法, 现有的研究主要通过模型组合
[17-19]
和
数据融合
[20-22]
两个角度进行模型精度的提高. 回顾
文献,道路行程时间预测研究大多集中在点预测模型
的改进, 即只对下一时刻的行程时间进行预测, 未提
收稿日期: 2017-06-10;修回日期: 2018-02-05.
基金项目: 陕西省交通运输厅科研项目(14-40X).
责任编委: 赵珺.
作者简介: 陈娇娜 (1989−), 女, 讲师, 博士, 从事数据挖掘和智能交通的研究;张生瑞 (1963−), 男, 教授, 博士生导
师,从事综合交通运输等研究.
†
通讯作者. E-mail: chenjn@xsyu.edu.cn
第11期 陈娇娜 等: 高速公路行程时间Bootstrap-KNN区间预测分析与实证 2081
供置信水平或可信度等辅助决策信息. 在行程时间
预测模型的典型建模过程中,精确掌握所有引起行程
时间变化的信息是无法实现的,信息采集的准确性和
有限性导致行程时间预测的不确定性. 改进的行程
时间点预测模型也无法避免预测结果缺乏可信度保
障的问题. 动态交通控制和出行者行为决策都需要
进行高速公路行程时间预测,在关注估计值时希望掌
握估计的准确程度,量化描述预测值的不确定性具有
重要的现实意义.
通过区间预测 PI(Interval prediction)来量化描述
高速公路行程时间预测值的质量和稳定性, 可以使预
测结果被出行者有选择性地参考. 文献 [23] 基于交
通流数据采用ARIMA-GARCH模型反映城市主干道
行程时间均值的波动性, 但是模型适应性有限. 高速
公路行程时间样本数据集具有一定的不均衡性和不
确定性, Bootstrap 不需要对总体分布作任何的假定
和限制
[24]
, 文献 [25] 采用 Bootstrap 对动态交通网络
进行可靠性评估, 文献 [26-28] 也证实了 Bootstrap 在
其他领域区间预测的应用.
利用高速公路收费系统记录数据可以较为准确
地计算进出站之间的实际行程时间, 本文以高速公路
收费系统作为数据来源, 提出一种基于 Bootstrap 策
略的高速公路行程时间区间预测方法, 通过预测区间
的宽度反映预测结果的可信度,即预测区间的范围越
窄表明预测结果越可靠. 最后, 采用陕西省 2015年收
费系统历史数据进行分析和验证.
1 高速公路行程时间区间预测
高速公路行程时间区间预测利用原始样本 X 建
立 Bootstrap 样本, 采用基于数据驱动的点预测模型
计算每个 Bootstrap 样本的行程时间预测值, 通过该
预测值序列来构造一个可能包含真实值的估计范围.
1.1 区间预测模型构建
假设高速公路行程时间总体的分布未知, 但已
知有一个样本容量为 n 的来自总体的数据样本 X =
{x
1
, x
2
, · · · , x
n
}, n ∈ N
+
. 具体建模步骤如下.
Step 1: 构建原始样本数据集X. 以高速公路收费
系统为数据来源, 计算 2015 年每条记录的起讫点行
程时间, 获得原始样本 X = {x
1
, x
2
, · · · , x
n
}, n ∈
N
+
.
Step 2: Bootstrap 重采样. 从原始样本 X 中有放
回地抽取数量为 m 的样本 X
∗
= {x
∗
1
, x
∗
2
, · · · , x
∗
m
},
m ∈ N
+
, 通常取 m = n, 该样本称为 Bootstrap样本.
建立B 个行程时间Bootstrap样本X
∗
1
, X
∗
2
, · · · , X
∗
B
.
Step 3: 构建点预测模型. 对每个 Bootstrap 样本
X
∗
进行行程时间预测建模, 获得
ˆ
t
i
= f
i
(x) + ε, i =
1, 2, · · · , B.
Step 4: 预测值序列计算. 通过上一个步骤中B 个
点预测模型分别对测试样本进行预测,获得包含B 个
预测值的序列
ˆ
θ
∗
= {
ˆ
θ
∗
1
,
ˆ
θ
∗
2
, · · · ,
ˆ
θ
∗
B
}.
Step 5: Bootstrap区间预测. 计算 {
ˆ
θ
∗
1
,
ˆ
θ
∗
2
, · · · ,
ˆ
θ
∗
B
}
的 Bootstrap 置信区间估计, 即得到行程时间预测区
间[low(
ˆ
t), up(
ˆ
t)].
由建模步骤可知, Step 3 的点预测模型和 Step 5
的Bootstrap 置信区间估计方法将直接影响行程时间
区间预测的性能和质量,因此需要对这两个关键步骤
进行深入讨论和分析.
1.2 Bootstrap置信区间的常用估计方法
记
ˆ
θ 为 基 于 原 始 样 本 X 的 预 测 值,
ˆ
θ
∗
为 基
于 Bootstrap 样 本 X
∗
的 预 测 值,
ˆ
θ
∗
i
为 基 于 第 i 个
Bootstrap 样本 X
∗
i
的预测值. 参考文献 [25] 给 出了
Bootstrap置信区间估计的4种常用方法.
1) 标准差的区间估计 (Standard error, SE). 计算
{
ˆ
θ
∗
1
,
ˆ
θ
∗
2
, · · · ,
ˆ
θ
∗
B
} 的均值和方差, 即
¯
θ
∗
=
1
B
B
∑
i=1
ˆ
θ
∗
i
,
Var(θ
∗
) =
1
B − 1
B
∑
i=1
(
ˆ
θ
∗
i
−
¯
θ
∗
)
2
. 当
ˆ
θ 服从或近似服
从正态分布时, Var(θ
∗
) 为 Var(X) 的估计值. 当显著
性水平为α 时,用u
1−α/2
表示标准正态分布的1−α/2
百分位数, 则 θ 的标准差 Bootstrap 置信区间为 (
ˆ
θ −
u
1−α/2
Var(θ
∗
),
ˆ
θ + u
1−α/2
Var(θ
∗
)).
2) 百分位数区间估计(Percentile bootstrap, PB). 将
ˆ
θ
∗
1
,
ˆ
θ
∗
2
, · · · ,
ˆ
θ
∗
B
由小到大排序得
ˆ
θ
∗
(1)
⩽
ˆ
θ
∗
(2)
⩽ · · · ⩽
ˆ
θ
∗
(B)
, 将
ˆ
θ
∗
的分布作为 θ 分布的近似.
ˆ
θ
∗
的近似分位
数
ˆ
θ
∗
α/2
、
ˆ
θ
∗
1−α/2
使得P (
ˆ
θ
∗
α/2
<
ˆ
θ
∗
<
ˆ
θ
∗
1−α/2
) = 1 − α,
则近似可得 P (
ˆ
θ
∗
α/2
< θ <
ˆ
θ
∗
1−α/2
) = 1 − α. 令
n
1
=
[
B ×
α
2
]
, n
2
=
[
B ×
(
1 −
α
2
)]
, 则 θ 在
1 − α 置信水平 下的百 分 位数 Bootstrap 置信区间
为(
ˆ
θ
∗
(n
1
)
,
ˆ
θ
∗
(n
2
)
).
3) t 百 分 位 数 区 间 估 计 (t-Percentile Bootstrap,
B-t). 对 每 个 Bootstrap 样 本 X
∗
i
计 算 T 统 计 量, 即
X
∗
i
=
ˆ
θ
∗
i
−
ˆ
θ
√
Var(θ
∗
)
, i = 1, 2, · · · , B. 将 T
∗
1
, T
∗
2
, · · · , T
∗
B
由小到大排序得 T
∗
(1)
, T
∗
(2)
, · · · , T
∗
(B)
. 令 n
1
=
[
B ×
α
2
]
, n
2
=
[
B ×
(
1−
α
2
)]
,当显著性水平为α时, θ 的t
百分位数Bootstrap置信区间为(
ˆ
θ − T
∗
(n
1
)
Var(θ
∗
),
ˆ
θ +
T
∗
(n
2
)
Var(θ
∗
)).
4) 加速偏差修正区间估计 (Bias-corrected and
accelerated, BCa). 定义 ˆφ 和 ˆz
0
分别表示加速因子和
剩余6页未读,继续阅读
资源评论
weixin_38679449
- 粉丝: 5
- 资源: 935
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 的玩具 Python 实现.zip
- RHCE linux下的火墙管理 及下载
- ESP32-C3FH4 : UltraLowPower SoC with RISCV SingleCore CPU Supporting 2.4 GHz WiFi and Bluetooth LE
- 用于解包和反编译由 Python 代码编译的 EXE 的辅助脚本 .zip
- 用于自动执行任务的精选 Python 脚本列表.zip
- 全国IT学科竞赛蓝桥杯的比赛特点及参赛心得
- 用于编码面试审查的算法和数据结构 .zip
- 用于操作 ESC,POS 打印机的 Python 库.zip
- 用于控制“Universal Robots”机器人的 Python 库.zip
- 用于控制 Broadlink RM2,3 (Pro) 遥控器、A1 传感器平台和 SP2,3 智能插头的 Python 模块.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功