没有合适的资源?快使用搜索试试~ 我知道了~
面向非均衡数据的糖尿病并发症预测.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 68 浏览量
2022-06-26
12:44:33
上传
评论
收藏 447KB DOCX 举报
温馨提示
试读
22页
面向非均衡数据的糖尿病并发症预测.docx
资源推荐
资源详情
资源评论
1 引言
目前由糖尿病引发的并发症高达上百种专家预测到 年糖尿病并发症
造成的死亡率将在各大疾病死因中排名第 。因此有效预测糖尿病患者可能患
有的并发症进而辅助医疗工作者更加有效地诊断和预防疾病成为目前医疗工作
者和数据挖掘人员关注的重点
。当前主流的疾病诊断方式有两种:医生主观分
析判断和使用机器学习模型辅助诊断。
()医生主观分析判断是常见的糖尿病并发症预测方式医生根据糖尿病患
者长期的各项检测指标结合自身经验对糖尿病患者可能患有的并发症进行判断
这种方法是比较常见的诊断方式。随着当今社会糖尿病患者数量急剧增多该
诊断方式将需要投入大量的人力财力而结合人工智能技术能使诊断更加高效。
()使用机器学习模型辅助诊断是当今的发展趋势主要是结合医学和人工
智能知识使用机器学习模型对患者的检测数据进行训练辅助医生给出结果。但
是由于各种并发症发病率不同导致训练的数据样本不均衡模型对少数样本的预
测存在准确率偏低的情况。
因此本文以国家临床医学科学数据中心提供的 名糖尿病患者真实的
项 例生化检查数据为样本引入处理非均衡分类的 算法和
集成学习模型建立新的强分类器模型并用该模型预测糖尿病患者是否患有某种
并发症最后从数据挖掘人员和医学人员角度提出相关建议从而为这一决策问题
提供理论和实践支撑。
2 相关研究
并发症预测研究
早期的学者大多根据个人信息、医学检查信息等对其是否患病进行预测。
等证明心脏病、糖尿病、肝脏病等疾病均可通过不同的机器学习算法进
行诊断预测
。侯玉梅等根据临床检验资料信息利用决策树算法建立模型预测检
验者是否患有 Ⅱ型糖尿病
。 等 对 比 了 、朴素贝 叶斯 ( !"#$
%$& ) 、 支 持 向 量 机 ( '(() *$+) +,$* ) 和 多 层 感 知 机
('--$).$)+$()/.)这 种机器学习算法评估患有糖尿病的风险最
终认为 决策树算法更适合评估患有糖尿病的风险
。崔波等提出用来预测诊
断是否患有Ⅱ型糖尿病的混合 k 近邻(k0!$)$&!$1,2)k!!)预测模型
。
张洪侠等使用在体检人群中招募的 名糖尿病患者和 名非糖尿病患者数据
采用 34%& 构建模型预测是否患有Ⅱ型糖尿病
。
近年来随着机器学习算法的广泛应用和患者需求不断增加部分学者已经扩
展研究范围开始研究由疾病引发的各类并发症。由于对相关医学涉及不深学者
们对医学上并发症的划分存在困难多为研究单一的并发症。林鑫等对 条Ⅱ
型糖尿病患者数据构建随机森林预测模型预测患有糖尿病肾病的风险
。崔纯纯
选取 条均衡的训练样本对神经病变、肾病并发症、视网膜并发症、动脉
硬化性心脏病并发症进行预测
。聂斌等提出基于粗糙集和随机森林算法的辅助
糖尿病并发症分类方法
。刘迷迷等基于糖尿病患者的尿常规检查、生化检查和
糖化检查数据以及根据诊断出的并发症频率划分预测的并发症种类分别构建
/. 预测模型预测糖尿病性肺部疾病的尿常规检查和生化检查的 /. 模型准
确率分别为 5和 5
。王洁等根据患者诊断指标使用 /1&+ 回归
和多层神经网络对Ⅱ型糖尿病并发症进行预测对某些并发症的预测准确率达到
5以上
。*6') 等使用随机森林算法对患病情况进行预测预测准确率
大于 5
。上述研究缺乏明确的并发症划分界线对并发症的预测较为单一且
数据的选取多为均衡数据缺乏临床数据样本不均衡的特点。
非均衡数据研究
在医学上患者的数据往往是不均衡的数据为了解决由不均衡数据带来的对
稀疏样本刻画能力不足和决策边界偏移的问题学者们提出了各种有针对性的方
法有的在数据层面对不均衡数据进行处理有的使用集成学习方法用以提高预测
准确率。71 等针对有缺失值的不平衡数据提出一种有效的糖尿病分类预测算
法采用自适应合成采样(89(#$,$+(-18:8;! )方法减少
类别不平衡对预测结果的影响再将随机森林分类器用于生成预测
。刘斌等使
用 合 成 少 数 过 采 样 技 术 ( ,$+ ) #$)&(-1
$+,<'$)对贷款风险进行预测
。张家伟等提出通过加权策略对过
采样和 随 机 森林 进 行 改进 可 提升少 数 类 样本分 类 准 确率
。刘华 玲 等提出
%111 的平衡处理对于互联网金融风险识别的效果较好
。王忠震等通过采样
技术和 89%& 算法对不平衡数据集进行处理
。8-1,9 等利用心肺健康
数据预测糖尿病的发病率采用集成机器学习的方法对三棵决策树(朴素贝叶斯、
随机森林和 /1&+ 模型树)进行投票提高了预测模型分类器的整体性能达到
了较高的预测准确率
。=$&, 等使用集成方法对慢性肾脏疾病、心血管疾病、
心脏病、糖尿病、肝炎、癌症等数据集进行了预测分析在每一个数据集上都能
显著改善各种性能指标
。杨美洁等采用随机森林算法建立糖尿病预测模型
。
贺小娟等得出 4%: 和 +>1 集成的模型对比单一模型8?@(8)$?9$)
@')#$ ) 值 至 少 提 升 了 5
。 张 春 富 等 结 合 遗 传 算 法 ( 4$$+
8-1),48)和 34%& 模型并结合患者的乙肝、血常规、肝功能、肾功
能等 个特征字段进行血糖值预测
。因此在对疾病的预测上对非均衡数据
进行有效处理的工作变得尤为重要。
综上所述当前研究在研究对象方面主要存在的问题是选择研究预测的糖尿
病并发症比较单一遗漏一些高并发症且对并发症的划分界限不是很清楚。在研
究方法方面主要存在以下问题。
()当前分类算法只关注预测准确率而忽略了正类样本和负类样本比例不
均衡的特点没有考虑到实例研究背景中着重关注的由假阳性和假阴性带来的影
响问题。
()单一的机器学习算法对并发症的预测仍然不能达到很好的效果。造成
这种现象的原因是:并发症种类繁多的特点导致了正负样本严重不均衡的现象
并发症的预测重点是关注能否及时诊断预测出患有并发症的患者。因此 将非均
衡分类处理方法纳入数据处理并基于集成学习算法设计训练分类器具有一定的
实际意义。
3 研究方法
由于糖尿病并发症种类繁多导致在全部糖尿病患者中患有某种并发症的数
据量极少用户表现出的真实数据是不均衡的若不考虑样本不均衡的问题会导致
得到的准确率看似特别高但是对实际情况几乎没有任何作用。近几年在处理非
平衡数据的问题中经典的数据处理方法有欠采样和过采样两种方法欠采样是从
多数样本中选取与少数样本相同数目的数据该方法显而易见地会减少样本数量
不能很好地保留原有数据信息数据之间的关系会变得模糊不清因而本文采用过
采样方法处理不均衡数据创建新的少数类的数据集使数据样本平衡。本文对比
了三种过采样方法:重采样、 和改进的 算法(基于频次的少数
过采样技术 )。另外相比于单分类器模型训练集成学习算法的学习
效果更好不容易出现过拟合问题。本文对比了 种单分类器学习模型:逻辑回
归(/1&+=$1)$&&/= )、*、>!!、决策树(:$+&)$$:)
以 及 种 集 成 学 习 模 型 : 随 机 森 林 ( =9
)$&=)、4%:、34%&、并行集成。
考虑非平衡分类的 的构建
相比对少数样本重采样的方法 更不容易造成因决策区间较小而导
致的过拟合问题另外 有助于打破过采样所产生的关系提高分类器的学
习能力。因此本文对比使用 @,- 等提出的 处理不均衡数据使数据
样本均衡
。
的中心思想是合成新的少数类样本先是将数据集分为少数类数据
和多数类数据计算它们之间的数量差也就是需要过采样的数量通过取每个少数
类样本 x
i
以欧氏距离为标准计算它到少数类样本集中所有样本的距离 得到其 k
近邻从它的 k 个最近邻中随机选一个少数类样本ØxiAB 并连接两点形成线段再在
x
i
和ØxiAB 之间的连线上随机选取一点作为新合成的少数类样本。
合成样本的生成方法是先取所考虑的特征向量(样本)与其最近邻之间的
差异将此差异乘以 C 之间的随机数并将其添加到所考虑的特征向量中这将
在两个特定特征之间沿线段随机选择一个点这种方法有效地迫使少数样本的决
策区域变得更加普遍。合成样本 x
new
如公式()所示。
xnew=x+rand(0,1)×(xi −x)A$DAE)9FGHFAIAG
FG
其中x 表示少数类样本点Jx
i
表示样本点 x 周围最近的第 i 个点。
的构建
的模拟过程采用 >!! 技术然而对于 >!! 特点不明显的数据使用
该方法创建的新数据会有很大的误差因而本文根据数据特征对 的 >!!
部分进行改进。
首先计算过采样需要的数量即多数类数据和少数类数据之间的数量差统计
每个特征的各个少数类样本 x
i
出现的频次并计算其出现的频率按频率值的高低
将少数类样本 x
i
进行排序对于每个特征随机选取 Ck 的一个随机整数 n连续型
数据计算其前 n 项数据的均值离散型数据选取第 n 项即合成一个特征的少数样
本再组合每个特征的新少数样本作为新合成的少数样本。这种方法能够有效地
增强少数样本决策区域的划分增强少数样本创建的准确性。
算法描述如下。
输入:不均衡数据集
输出:均衡的新样本数据集
将数据集分开为少数类数据和多数类数据
计算需要过采样的数量 diff
K)diff09
K)每个特征Ø9
计算少数类样本 x
i
出现的次数和频率
按频率值的高低对少数类样本排序
n=rand(1,K)D)9F6G
K特征 & 离散型特征
xnew=xnA$DAJ
K特征 & 连续型特征
xnew=(x1+x2+…+xn)/n A$DFAEAELEAGMJ
$9K)
组合所有特征的 x
new
为新合成的 条少数样本J
$9K)
生成新的少数类数据集J
在样本的选择上无法克服样本的分布问题会使分布边缘化造成新
样本是噪声样本导致正负类边界模糊影响模型结果。对于边界数据界定非常严
格的样本 产生的噪声样本的代价会很大而本文提出的基于频次的少数
过抽样技术 则可以很好地避免这一问题由于频率和均值的计算会生
成准确性更高的新样本且更能增强少数类样本的数据分布特征从而使机器更容
易学习。
为了证明这一观点选择 ?@N 下的三个正负样本不同比例的数据集(煤矿高
能地震波数据集、肺癌患者数据集和心力衰竭患者数据集) 分别对比学习器
(随机森林)使用 和 的实验数据。其中随机森林学习器采
用默认参数设置使用 折交叉验证 中的 6 近邻参数取值为 。为便于
对 比 新 算法 的优 势 三 个数 据集 的 正负 数 据分 布情 况 如 表Ø Ø
ØØØØ
ØØØØ
ØØ
ØØ
ØØ
所示 和
的 .= 曲线下的 8?@ 值如图Ø Ø
ØØØØ
ØØØØ
ØØ
ØØ
ØØ
所示。
表 1样本不均衡分布情况统计
Table 1Statistics of Unbalanced Distribution of Samples
样本分布 煤矿高能地震波数据集
肺癌患者
数据集
心力衰竭
患者数据集
正样本数量(例)
剩余21页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3543
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功