没有合适的资源?快使用搜索试试~ 我知道了~
基于 GBDT 的铁路事故类型预测及成因分析.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 120 浏览量
2023-02-23
16:49:08
上传
评论 1
收藏 1.16MB DOCX 举报
温馨提示
试读
17页
基于 GBDT 的铁路事故类型预测及成因分析.docx
资源推荐
资源详情
资源评论
近年来, 我国铁路事业高速发展, 在推动国民经济发展中发挥着至关重要的作用. 与此
同时, 铁路安全问题也愈发受到重视. 在大数据时代, 如何利用铁路事故历史记录数据发掘
有用信息, 建立事故预警机制, 对于推动铁路行业信息化, 提高运输效率, 防范安全隐患具
有重要意义. 铁路事故类型预测和事故致因分析是建立事故预警机制的两个基础环节. 铁路
事故预测利用历史事故记录估计和判断未来某种情况下是否会发生事故. 铁路事故成因分
析通过分析事故发生时的客观环境与人为因素, 寻找造成事故的最可能原因, 从而采取针对
性的预警防护手段. 因此, 利用铁路事故历史记录, 采用数据挖掘技术发掘其中有用信息,
进行铁路事故类型预测与成因分析具有重大现实意义.
铁路事故类型预测的本质是一个多分类问题. 常用的多分类模型有逻辑回归(Logistic
regression, LR)
[1]
、支持向量机(Support vector machine, SVM)
[2]
和决策树(Decision tree, DT)
[3]
等. 文献[4]利用决策树算法进行煤与瓦斯的突出预测. 然而, 这类分类器主要适用于简单、
平衡的数据训练, 对于铁路事故记录这种复杂、类别失衡的高维数据, 训练较为困难, 且预
测结果不够理想. 集成学习能够将多个模型集成以获取更好的预测结果, 对于不平衡数据的
分类问题具有更好的有效性. 常用集成学习模型主要包括随机森林(Random forest, RF)
[5]
和
梯度提升决策树(Gradient boosting decision tree, GBDT)
[6-7]
. RF 基于 Bagging 思想
[8]
, 并行集
成基学习器, 模型简单, 计算开销小; 而 GBDT 则是基于 Gradient boosting 思想
[6, 9]
, 对基学
习器进行串行集成, 对数据拟合能力很强. 文献[10-13]分别使用以上模型进行预测.
铁路事故成因分析是对事故类型预测的反演. 常用的事故成因分析方法有复杂网络方
法、灰色理论等. 文献[14]结合灰色综合关联度和信息熵, 利用熵分析事件不确定性的原理,
针对事故相关属性的重要度进行分析. 文献[15]运用多维关联规则提取技术找出事故成因关
联规则. 上述事故成因分析方法对于值类别数较多的特征, 运算较复杂.
此外, 现有铁路事故记录数据存在严重的数据缺失问题, 在进行铁路事故类型预测和
归因前, 首先需要对数据进行补全. 选择合适的补全方法对于提升预测结果的准确性有很大
影响. 目前, 常用的补全方法主要包括均值填补法、最近距离填补法、回归填补法等
[16-17]
.
然而, 前两种方法在某种程度上会影响样本状态分布, 导致预测结果的偏差; 回归填补法仅
适用于连续特征, 对于离散特征并不适用.
针对上述问题, 本文提出了一种基于 GBDT 的铁路事故类型预测及成因分析算法. 首
先, 针对铁路事故数据缺失问题, 提出了一种基于属性分布概率的补全算法, 该算法最大程
度地保持了原有的数据结构, 从而降低数据缺失对于类型预测造成的影响. 其次, 提出了一
种基于 Bagging 的集成 GBDT 模型, 针对类别失衡的铁路事故历史记录数据能够进行高效
训练, 得到准确的事故类型预测结果. 同时, 结合统计学习理论, 根据 GBDT 预测模型中的
特征重要度排序, 实现事故致因分析. 算法整体框架如图 1 所示. 通过在公开的铁路事故数
据库上进行实验, 验证了本文所提算法的有效性.
图 1 基于 GBDT 的铁路事故类型预测及成因分析框架
Fig. 1 The framework of GBDT-based railroad accident type prediction and cause analysis
下载: 全尺寸图片 幻灯片
1. 铁路事故缺失数据补全算法
在本节中, 我们主要介绍本文所提出的基于属性分布概率的缺失数据补全算法. 其中,
第 1.1 节给出本文所用符号的说明. 第 1.2 节对算法进行具体描述.
1.1 符号说明
为便于后文阐述, 首先对本文所用的一些符号进行说明. 令 D∈RN×(p+1)D∈RN×(p+1)
表示记录条数为 NN 的铁路设备事故数据集, 其中每条记录可表示为
dd=dd=[XXi,yi][XXi,yi], 0≤i≤N0≤i≤N. 令 X=[XX1,XX2,⋯,XXN]T∈X=[XX1,XX2,⋯,XXN]T∈
RN×pRN×p 表示 NN 条记录的 pp 维特征空间, 其中 XXi=XXi=[x1i,x2i,⋯,[xi1,xi2,
⋯,xpi]∈R1×pxip]∈R1×p 表示每一条记录的 pp 维特征向量. Y = [y1,y2,⋯,yN]T∈RN×1[y1,y2,
⋯,yN]T∈RN×1 表示 NN 条事故记录的类型向量, 其中, yi∈{1,⋯,C},Cyi∈{1,⋯,C},C 为事故类
型总数量. 令 xjxj 表示第 jj 个特征, 1≤j≤p1≤j≤p, 使用 ajaj 表示 xjxj 的取值. 若 xjxj 是离散
的类别型属性, 则类别 aj∈{1,⋯,aj∈{1,⋯,k}k}, 其中 kk 为 xjxj 可取类别值的数量.
1.2 基于属性分布概率的补全算法
由于客观环境及人为原因等干扰因素, 导致铁路事故记录数据存在缺失, 对后续事故
类型预测建模及成因分析有不利影响. 因此, 需对铁路事故数据进行缺失补全.
目前常用的补全方法包括均值补全、众数补全等. 然而, 由于铁路事故记录数据中的
属性多为离散的类别型属性, 常规补全方法并不适用. 例如, 均值补全适用于连续的数值型
属性; 众数补全适用于数据本身缺失较少, 其中需补全的属性的取值分布有明显偏好的情
况, 对于取值分布较均衡的属性, 使用众数补全会改变原有属性取值的概率分布.
考虑到上述问题, 本文提出了一种基于属性分布概率的补全算法. 算法流程由算法 1
给出. 针对铁路事故记录数据中取值分布较均衡的离散、类别型属性 xjxj, 计算现有数据下
该属性所有取值 aj=naj=n 出现的概率 PnjPjn, 基于概率进行缺失值的填补, 从而在保持属
性原有的分布的情况下, 完成对铁路事故数据的补全, 降低数据缺失对事故类型预测的影
响.
PnjPjn 计算公式如下:
Pnj=AnjNALLPjn=AjnNALL
(1)
表示当前 NALLNALL 条事故记录下, 属性 xjxj 取值为类别 nn 的概率. AnjAjn 表示属
性 xjxj 取值为类别 nn 的个数.
算法 1. 基于属性分布概率的补全算法
输入. 待插补的特征 xjxj、取值 aj=1,⋯,kaj=1,⋯,k 的个数 A1j,⋯,AkjAj1,⋯,Ajk、全部事
故记录条数 NN.
输出. 插补完成的特征 x^jx^j.
步骤 1. 计算事故记录中特征 xjxj 存在的记录的条数
NALL=∑kn=1AnjNALL=∑n=1kAjn;
步骤 2. 计算事故记录中特征 xjxj 空缺的记录条数 NLACK=N−NALLNLACK=N−NALL;
步骤 3. for 特征 xjxj 的所有取值(1,k)(1,k)
do
步骤 3.1. 计算特征 xjxj 每一个取值出现的概率
PnjPjn==AnjNALL,n=(1,⋯,k)AjnNALL,n=(1,⋯,k);
步骤 3.2. 计算每一个取值需要插补的次数 Snj←Pnj×NLACKSjn←Pjn×NLACK;
步骤 4. for 特征 xjxj 的所有取值(1,k)(1,k)
do
步骤 4.1. 将每一个要填补的取值按需要插补的次数扩展为集合
TnjTjn←←[aj=n]∗Snj[aj=n]∗Sjn, nn==(1,⋯,k)(1,⋯,k), * 表示复制 SnjSjn 次.
步骤 5. 将所有取值的集合合并为一个集合 TjTj==T1j∪T2j∪⋯∪TkjTj1∪Tj2∪⋯∪Tjk;
步骤 6. for 每一个特征 xjxj 的缺失位置 (1,(1,NLACK)NLACK)
do
步骤 6.1. 从 TjTj 中随机无放回地取值填入空缺位置;
步骤 7. 输出插补完成的特征 x^jx^j.
2. 铁路事故类型预测
铁路事故预测本质上是一个多分类问题. 由于铁路事故记录数据类别不均衡且属性多
为离散值属性, GBDT 在处理这类数据时具有很好的有效性. 本章节详细介绍了基于改进
GBDT 的铁路事故类型预测模型. 其中, 第 2.1 节简要介绍了 GBDT 模型, 第 2.2 节对本文
所提模型进行详细阐述.
2.1 GBDT 模型
GBDT 是基于 Boosting 算法
[9]
的集成决策树模型. Boosting 算法依据上一次训练的残差
生成基学习器. GBDT 在 Boosting 的基础上, 在残差减小的梯度方向上建立新的决策树
[6-7]
.
GBDT 模型可表示为:
FM(x)=∑m=1MT(x;Θm)FM(x)=∑m=1MT(x;Θm)
(2)
其中, T(x;Θm)T(x;Θm)表示决策树, ΘmΘm 表示树的参数, MM 为树的个数.
决策树 T(x;Θm)T(x;Θm)的损失函数用 L(⋅)L(⋅)表示, 在 GBDT 中, 损失函数为平方误
差函数. 用 Tm−1(x)Tm−1(x)表示当前决策树, GBDT 通过最小化损失函数来确定下一棵决
策树的参数 Θ^mΘ^m.
Θ^m=argmin∑i=1NL(yi,Tm−1(xi)+T(xi;Θm))Θ^m=argmin∑i=1NL(yi,Tm−1(xi)+T(xi;Θm))
(3)
2.2 基于 Bagging 的集成 GBDT 模型
由于铁路事故样本存在类别失衡的问题, 使用单一 GBDT 难以满足分类需求. 集成学
习中的 Bagging 算法能够随机有放回地选择训练数据, 构建基学习器, 然后将多个基学习器
组合, 使用投票法或简单平均法计算分类结果
[8, 18-19]
. 文献[20]和[21]都是通过将多个分类器
集成, 以获得更好的分类效果. 本文参考文献[20], 提出一种基于 Bagging 的集成 GBDT 算
法, 以 GBDT 作为基学习器, 利用 Bagging 算法将多个 GBDT 集成, 构造集成 GBDT 模型,
获得比单一 GBDT 优越的分类效果, 克服样本类别失衡对预测造成的影响, 实现铁路事故
类型的精确预测.
算法流程如算法 2 所示. 对于输入的训练集(X,y)(X,y), 利用 Bootstrap 算法
[8]
以采样率
αα 随机采样 MgMg 次, 得到 MgMg 个训练子集, 从而构造 MgMg 个
GBDTtGBDTt, t=1,⋯,Mgt=1,⋯,Mg; 对于每一个 GBDTtGBDTt 的预测值 y^iy^i, 利用投票法,
剩余16页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3695
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功