基于GBDT的铁路事故类型预测及成因分析.docx资源-CSDN文库

版权申诉

120 浏览量 2023-02-23 16:49:08 上传评论 1 收藏 1.16MB DOCX 举报

资源推荐

资源详情

资源评论

近年来, 我国铁路事业高速发展, 在推动国民经济发展中发挥着至关重要的作用. 与此

同时, 铁路安全问题也愈发受到重视. 在大数据时代, 如何利用铁路事故历史记录数据发掘

有用信息, 建立事故预警机制, 对于推动铁路行业信息化, 提高运输效率, 防范安全隐患具

有重要意义. 铁路事故类型预测和事故致因分析是建立事故预警机制的两个基础环节. 铁路

事故预测利用历史事故记录估计和判断未来某种情况下是否会发生事故. 铁路事故成因分

析通过分析事故发生时的客观环境与人为因素, 寻找造成事故的最可能原因, 从而采取针对

性的预警防护手段. 因此, 利用铁路事故历史记录, 采用数据挖掘技术发掘其中有用信息,

进行铁路事故类型预测与成因分析具有重大现实意义.

铁路事故类型预测的本质是一个多分类问题. 常用的多分类模型有逻辑回归(Logistic

regression, LR)

[1]

、支持向量机(Support vector machine, SVM)

[2]

和决策树(Decision tree, DT)

[3]

等. 文献[4]利用决策树算法进行煤与瓦斯的突出预测. 然而, 这类分类器主要适用于简单、

平衡的数据训练, 对于铁路事故记录这种复杂、类别失衡的高维数据, 训练较为困难, 且预

测结果不够理想. 集成学习能够将多个模型集成以获取更好的预测结果, 对于不平衡数据的

分类问题具有更好的有效性. 常用集成学习模型主要包括随机森林(Random forest, RF)

[5]

和

梯度提升决策树(Gradient boosting decision tree, GBDT)

[6-7]

. RF 基于 Bagging 思想

[8]

, 并行集

成基学习器, 模型简单, 计算开销小; 而 GBDT 则是基于 Gradient boosting 思想

[6, 9]

, 对基学

习器进行串行集成, 对数据拟合能力很强. 文献[10-13]分别使用以上模型进行预测.

铁路事故成因分析是对事故类型预测的反演. 常用的事故成因分析方法有复杂网络方

法、灰色理论等. 文献[14]结合灰色综合关联度和信息熵, 利用熵分析事件不确定性的原理,

针对事故相关属性的重要度进行分析. 文献[15]运用多维关联规则提取技术找出事故成因关

联规则. 上述事故成因分析方法对于值类别数较多的特征, 运算较复杂.

此外, 现有铁路事故记录数据存在严重的数据缺失问题, 在进行铁路事故类型预测和

归因前, 首先需要对数据进行补全. 选择合适的补全方法对于提升预测结果的准确性有很大

影响. 目前, 常用的补全方法主要包括均值填补法、最近距离填补法、回归填补法等

[16-17]

然而, 前两种方法在某种程度上会影响样本状态分布, 导致预测结果的偏差; 回归填补法仅

适用于连续特征, 对于离散特征并不适用.

针对上述问题, 本文提出了一种基于 GBDT 的铁路事故类型预测及成因分析算法. 首

先, 针对铁路事故数据缺失问题, 提出了一种基于属性分布概率的补全算法, 该算法最大程

度地保持了原有的数据结构, 从而降低数据缺失对于类型预测造成的影响. 其次, 提出了一

种基于 Bagging 的集成 GBDT 模型, 针对类别失衡的铁路事故历史记录数据能够进行高效

训练, 得到准确的事故类型预测结果. 同时, 结合统计学习理论, 根据 GBDT 预测模型中的

特征重要度排序, 实现事故致因分析. 算法整体框架如图 1 所示. 通过在公开的铁路事故数

据库上进行实验, 验证了本文所提算法的有效性.

⋯,yN]T∈RN×1 表示 NN 条事故记录的类型向量, 其中, yi∈{1,⋯,C},Cyi∈{1,⋯,C},C 为事故类

型总数量. 令 xjxj 表示第 jj 个特征, 1≤j≤p1≤j≤p, 使用 ajaj 表示 xjxj 的取值. 若 xjxj 是离散

的类别型属性, 则类别 aj∈{1,⋯,aj∈{1,⋯,k}k}, 其中 kk 为 xjxj 可取类别值的数量.

1.2 基于属性分布概率的补全算法

由于客观环境及人为原因等干扰因素, 导致铁路事故记录数据存在缺失, 对后续事故

类型预测建模及成因分析有不利影响. 因此, 需对铁路事故数据进行缺失补全.

目前常用的补全方法包括均值补全、众数补全等. 然而, 由于铁路事故记录数据中的

属性多为离散的类别型属性, 常规补全方法并不适用. 例如, 均值补全适用于连续的数值型

属性; 众数补全适用于数据本身缺失较少, 其中需补全的属性的取值分布有明显偏好的情

况, 对于取值分布较均衡的属性, 使用众数补全会改变原有属性取值的概率分布.

考虑到上述问题, 本文提出了一种基于属性分布概率的补全算法. 算法流程由算法 1

给出. 针对铁路事故记录数据中取值分布较均衡的离散、类别型属性 xjxj, 计算现有数据下

该属性所有取值 aj=naj=n 出现的概率 PnjPjn, 基于概率进行缺失值的填补, 从而在保持属

性原有的分布的情况下, 完成对铁路事故数据的补全, 降低数据缺失对事故类型预测的影

响.

PnjPjn 计算公式如下:

Pnj=AnjNALLPjn=AjnNALL

(1)

表示当前 NALLNALL 条事故记录下, 属性 xjxj 取值为类别 nn 的概率. AnjAjn 表示属

性 xjxj 取值为类别 nn 的个数.

算法 1. 基于属性分布概率的补全算法

输入. 待插补的特征 xjxj、取值 aj=1,⋯,kaj=1,⋯,k 的个数 A1j,⋯,AkjAj1,⋯,Ajk、全部事

故记录条数 NN.

输出. 插补完成的特征 x^jx^j.

步骤 1. 计算事故记录中特征 xjxj 存在的记录的条数

NALL=∑kn=1AnjNALL=∑n=1kAjn;

步骤 2. 计算事故记录中特征 xjxj 空缺的记录条数 NLACK=N−NALLNLACK=N−NALL;

步骤 3. for 特征 xjxj 的所有取值(1,k)(1,k)

步骤 3.1. 计算特征 xjxj 每一个取值出现的概率

PnjPjn==AnjNALL,n=(1,⋯,k)AjnNALL,n=(1,⋯,k);

步骤 3.2. 计算每一个取值需要插补的次数 Snj←Pnj×NLACKSjn←Pjn×NLACK;

步骤 4. for 特征 xjxj 的所有取值(1,k)(1,k)

步骤 4.1. 将每一个要填补的取值按需要插补的次数扩展为集合

TnjTjn←←[aj=n]∗Snj[aj=n]∗Sjn, nn==(1,⋯,k)(1,⋯,k), * 表示复制 SnjSjn 次.

步骤 5. 将所有取值的集合合并为一个集合 TjTj==T1j∪T2j∪⋯∪TkjTj1∪Tj2∪⋯∪Tjk;

步骤 6. for 每一个特征 xjxj 的缺失位置 (1,(1,NLACK)NLACK)

步骤 6.1. 从 TjTj 中随机无放回地取值填入空缺位置;

步骤 7. 输出插补完成的特征 x^jx^j.

2. 铁路事故类型预测

铁路事故预测本质上是一个多分类问题. 由于铁路事故记录数据类别不均衡且属性多

为离散值属性, GBDT 在处理这类数据时具有很好的有效性. 本章节详细介绍了基于改进

GBDT 的铁路事故类型预测模型. 其中, 第 2.1 节简要介绍了 GBDT 模型, 第 2.2 节对本文

所提模型进行详细阐述.

2.1 GBDT 模型

GBDT 是基于 Boosting 算法

[9]

的集成决策树模型. Boosting 算法依据上一次训练的残差

生成基学习器. GBDT 在 Boosting 的基础上, 在残差减小的梯度方向上建立新的决策树

[6-7]

GBDT 模型可表示为:

FM(x)=∑m=1MT(x;Θm)FM(x)=∑m=1MT(x;Θm)

(2)

其中, T(x;Θm)T(x;Θm)表示决策树, ΘmΘm 表示树的参数, MM 为树的个数.

决策树 T(x;Θm)T(x;Θm)的损失函数用 L(⋅)L(⋅)表示, 在 GBDT 中, 损失函数为平方误

差函数. 用 Tm−1(x)Tm−1(x)表示当前决策树, GBDT 通过最小化损失函数来确定下一棵决

策树的参数 Θ^mΘ^m.

Θ^m=argmin∑i=1NL(yi,Tm−1(xi)+T(xi;Θm))Θ^m=arg⁡min∑i=1NL(yi,Tm−1(xi)+T(xi;Θm))

(3)

2.2 基于 Bagging 的集成 GBDT 模型

由于铁路事故样本存在类别失衡的问题, 使用单一 GBDT 难以满足分类需求. 集成学

习中的 Bagging 算法能够随机有放回地选择训练数据, 构建基学习器, 然后将多个基学习器

组合, 使用投票法或简单平均法计算分类结果

[8, 18-19]

. 文献[20]和[21]都是通过将多个分类器

集成, 以获得更好的分类效果. 本文参考文献[20], 提出一种基于 Bagging 的集成 GBDT 算

法, 以 GBDT 作为基学习器, 利用 Bagging 算法将多个 GBDT 集成, 构造集成 GBDT 模型,

获得比单一 GBDT 优越的分类效果, 克服样本类别失衡对预测造成的影响, 实现铁路事故

类型的精确预测.

算法流程如算法 2 所示. 对于输入的训练集(X,y)(X,y), 利用 Bootstrap 算法

[8]

以采样率

αα 随机采样 MgMg 次, 得到 MgMg 个训练子集, 从而构造 MgMg 个

GBDTtGBDTt, t=1,⋯,Mgt=1,⋯,Mg; 对于每一个 GBDTtGBDTt 的预测值 y^iy^i, 利用投票法,

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3695
资源: 1万+

基于 GBDT 的铁路事故类型预测及成因分析.docx

最新资源

基于 GBDT 的铁路事故类型预测及成因分析.docx

一个案例搞定GBDT原理分析.pdf

gbdt算法公式.docx

GBDT公式主要内容1.docx

一种基于GBDT机器学习的算法及应用研究.pdf

基于GBDT的客流量的预测.zip

不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.docx

基于三维荧光光谱和GBDT-LR的褐潮藻辨识.docx

基于GBDT和神经网络的光伏发电组合预测.pdf

一种基于GBDT的空预器灰污监测模型.docx

决策树模型组合算法GBDT.docx

集成学习—AdaBoost、GBDT、XGBT.docx

基于GBDT等数据挖掘算法的场景用户识别方法.pdf

SparkCTR：基于spark（LR，GBDT，DNN）的CTR预测模型-源码.zip

论文研究-基于SMOTE和GBDT的网络入侵检测方法研究.pdf

分别基于GBDT模型和logistic模型实现对贷款人预期违约率评判matlab源码.zip

论文研究-一种基于GBDT的Domain-flux僵尸网络检测方法的设计与分析 .pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于Qt 5.8.0-数字图像处理.zip

农村公交与异构无人机协同配送优化

学术海报模板+论文科研+研究生

北森能力测评题库.zip

车载毫米波雷达DOA估计综述博文仿真代码

最新资源

李飞飞自传我看见的世界 The World I see