面向非均衡数据的糖尿病并发症预测.docx资源-CSDN文库

版权申诉

文档资料

68 浏览量 2022-06-26 12:44:33 上传评论收藏 447KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

目前由糖尿病引发的并发症高达上百种专家预测到  年糖尿病并发症

造成的死亡率将在各大疾病死因中排名第 。因此有效预测糖尿病患者可能患

有的并发症进而辅助医疗工作者更加有效地诊断和预防疾病成为目前医疗工作

者和数据挖掘人员关注的重点







。当前主流的疾病诊断方式有两种：医生主观分

析判断和使用机器学习模型辅助诊断。

（）医生主观分析判断是常见的糖尿病并发症预测方式医生根据糖尿病患

者长期的各项检测指标结合自身经验对糖尿病患者可能患有的并发症进行判断







这种方法是比较常见的诊断方式。随着当今社会糖尿病患者数量急剧增多该

诊断方式将需要投入大量的人力财力而结合人工智能技术能使诊断更加高效。

（）使用机器学习模型辅助诊断是当今的发展趋势主要是结合医学和人工

智能知识使用机器学习模型对患者的检测数据进行训练辅助医生给出结果。但

是由于各种并发症发病率不同导致训练的数据样本不均衡模型对少数样本的预

测存在准确率偏低的情况。

因此本文以国家临床医学科学数据中心提供的  名糖尿病患者真实的

 项  例生化检查数据为样本引入处理非均衡分类的  算法和

集成学习模型建立新的强分类器模型并用该模型预测糖尿病患者是否患有某种

并发症最后从数据挖掘人员和医学人员角度提出相关建议从而为这一决策问题

提供理论和实践支撑。

2 相关研究

并发症预测研究

早期的学者大多根据个人信息、医学检查信息等对其是否患病进行预测。

 等证明心脏病、糖尿病、肝脏病等疾病均可通过不同的机器学习算法进

行诊断预测







。侯玉梅等根据临床检验资料信息利用决策树算法建立模型预测检

验者是否患有 Ⅱ型糖尿病







。 等对比了  、朴素贝叶斯（ !"#$

%$& ）、支持向量机（ '(()  *$+)  +,$* ）和多层感知机

（'--$).$)+$()/.）这  种机器学习算法评估患有糖尿病的风险最

终认为  决策树算法更适合评估患有糖尿病的风险







。崔波等提出用来预测诊

断是否患有Ⅱ型糖尿病的混合 k 近邻（k0!$)$&!$1,2)k!!）预测模型







。

张洪侠等使用在体检人群中招募的  名糖尿病患者和  名非糖尿病患者数据

采用 34%& 构建模型预测是否患有Ⅱ型糖尿病







。

近年来随着机器学习算法的广泛应用和患者需求不断增加部分学者已经扩

展研究范围开始研究由疾病引发的各类并发症。由于对相关医学涉及不深学者

们对医学上并发症的划分存在困难多为研究单一的并发症。林鑫等对  条Ⅱ

型糖尿病患者数据构建随机森林预测模型预测患有糖尿病肾病的风险







。崔纯纯

选取  条均衡的训练样本对神经病变、肾病并发症、视网膜并发症、动脉

硬化性心脏病并发症进行预测







。聂斌等提出基于粗糙集和随机森林算法的辅助

糖尿病并发症分类方法







。刘迷迷等基于糖尿病患者的尿常规检查、生化检查和

糖化检查数据以及根据诊断出的并发症频率划分预测的并发症种类分别构建

/. 预测模型预测糖尿病性肺部疾病的尿常规检查和生化检查的 /. 模型准

确率分别为 5和 5







。王洁等根据患者诊断指标使用 /1&+ 回归

和多层神经网络对Ⅱ型糖尿病并发症进行预测对某些并发症的预测准确率达到

5以上







。*6') 等使用随机森林算法对患病情况进行预测预测准确率

大于 5







。上述研究缺乏明确的并发症划分界线对并发症的预测较为单一且

数据的选取多为均衡数据缺乏临床数据样本不均衡的特点。

非均衡数据研究

在医学上患者的数据往往是不均衡的数据为了解决由不均衡数据带来的对

稀疏样本刻画能力不足和决策边界偏移的问题学者们提出了各种有针对性的方

法有的在数据层面对不均衡数据进行处理有的使用集成学习方法用以提高预测

准确率。71 等针对有缺失值的不平衡数据提出一种有效的糖尿病分类预测算

法采用自适应合成采样（89(#$,$+(-18:8;! ）方法减少

类别不平衡对预测结果的影响再将随机森林分类器用于生成预测







。刘斌等使

用合成少数过采样技术（ ,$+  )  #$)&(-1

$+,<'$）对贷款风险进行预测







。张家伟等提出通过加权策略对过

采样和随机森林进行改进  可提升少数类样本分类准确率







。刘华玲等提出

%111 的平衡处理对于互联网金融风险识别的效果较好







。王忠震等通过采样

技术和 89%& 算法对不平衡数据集进行处理







。8-1,9 等利用心肺健康

数据预测糖尿病的发病率采用集成机器学习的方法对三棵决策树（朴素贝叶斯、

随机森林和 /1&+ 模型树）进行投票提高了预测模型分类器的整体性能达到

了较高的预测准确率







。=$&, 等使用集成方法对慢性肾脏疾病、心血管疾病、

心脏病、糖尿病、肝炎、癌症等数据集进行了预测分析在每一个数据集上都能

显著改善各种性能指标







。杨美洁等采用随机森林算法建立糖尿病预测模型







。

贺小娟等得出 4%: 和 +>1 集成的模型对比单一模型8?@（8)$?9$)

@')#$ ）值至少提升了 5







。张春富等结合遗传算法（ 4$$+

8-1),48）和 34%& 模型并结合患者的乙肝、血常规、肝功能、肾功

能等  个特征字段进行血糖值预测







。因此在对疾病的预测上对非均衡数据

进行有效处理的工作变得尤为重要。

综上所述当前研究在研究对象方面主要存在的问题是选择研究预测的糖尿

病并发症比较单一遗漏一些高并发症且对并发症的划分界限不是很清楚。在研

究方法方面主要存在以下问题。

（）当前分类算法只关注预测准确率而忽略了正类样本和负类样本比例不

均衡的特点没有考虑到实例研究背景中着重关注的由假阳性和假阴性带来的影

响问题。

（）单一的机器学习算法对并发症的预测仍然不能达到很好的效果。造成

这种现象的原因是：并发症种类繁多的特点导致了正负样本严重不均衡的现象

并发症的预测重点是关注能否及时诊断预测出患有并发症的患者。因此 将非均

衡分类处理方法纳入数据处理并基于集成学习算法设计训练分类器具有一定的

实际意义。

3 研究方法

由于糖尿病并发症种类繁多导致在全部糖尿病患者中患有某种并发症的数

据量极少用户表现出的真实数据是不均衡的若不考虑样本不均衡的问题会导致

得到的准确率看似特别高但是对实际情况几乎没有任何作用。近几年在处理非

平衡数据的问题中经典的数据处理方法有欠采样和过采样两种方法欠采样是从

多数样本中选取与少数样本相同数目的数据该方法显而易见地会减少样本数量

不能很好地保留原有数据信息数据之间的关系会变得模糊不清因而本文采用过

采样方法处理不均衡数据创建新的少数类的数据集使数据样本平衡。本文对比

了三种过采样方法：重采样、 和改进的  算法（基于频次的少数

过采样技术 ）。另外相比于单分类器模型训练集成学习算法的学习

效果更好不容易出现过拟合问题。本文对比了  种单分类器学习模型：逻辑回

归（/1&+=$1)$&&/= ）、*、>!!、决策树（:$+&)$$:）

以及  种集成学习模型：随机森林（ =9

)$&=）、4%:、34%&、并行集成。

考虑非平衡分类的  的构建

相比对少数样本重采样的方法  更不容易造成因决策区间较小而导

致的过拟合问题另外 有助于打破过采样所产生的关系提高分类器的学

习能力。因此本文对比使用 @,- 等提出的  处理不均衡数据使数据

样本均衡







。

 的中心思想是合成新的少数类样本先是将数据集分为少数类数据

和多数类数据计算它们之间的数量差也就是需要过采样的数量通过取每个少数

类样本 x

以欧氏距离为标准计算它到少数类样本集中所有样本的距离 得到其 k

近邻从它的 k 个最近邻中随机选一个少数类样本ØxiAB 并连接两点形成线段再在

和ØxiAB  之间的连线上随机选取一点作为新合成的少数类样本。

合成样本的生成方法是先取所考虑的特征向量（样本）与其最近邻之间的

差异将此差异乘以 C 之间的随机数并将其添加到所考虑的特征向量中这将

在两个特定特征之间沿线段随机选择一个点这种方法有效地迫使少数样本的决

策区域变得更加普遍。合成样本 x

new

如公式（）所示。

xnew=x+rand(0,1)×(xi −x)A$DAE)9FGHFAIAG

FG

其中x 表示少数类样本点Jx

表示样本点 x 周围最近的第 i 个点。

 的构建

 的模拟过程采用 >!! 技术然而对于 >!! 特点不明显的数据使用

该方法创建的新数据会有很大的误差因而本文根据数据特征对  的 >!!

部分进行改进。

首先计算过采样需要的数量即多数类数据和少数类数据之间的数量差统计

每个特征的各个少数类样本 x

出现的频次并计算其出现的频率按频率值的高低

将少数类样本 x

进行排序对于每个特征随机选取 Ck 的一个随机整数 n连续型

数据计算其前 n 项数据的均值离散型数据选取第 n 项即合成一个特征的少数样

本再组合每个特征的新少数样本作为新合成的少数样本。这种方法能够有效地

增强少数样本决策区域的划分增强少数样本创建的准确性。

 算法描述如下。

输入：不均衡数据集

输出：均衡的新样本数据集

将数据集分开为少数类数据和多数类数据

计算需要过采样的数量 diff

K)diff09

K)每个特征Ø9

计算少数类样本 x

出现的次数和频率

按频率值的高低对少数类样本排序

n=rand(1,K)D)9F6G

K特征 & 离散型特征

xnew=xnA$DAJ

K特征 & 连续型特征

xnew=(x1+x2+…+xn)/n A$DFAEAELEAGMJ

$9K)

组合所有特征的 x

new

为新合成的  条少数样本J

$9K)

生成新的少数类数据集J

 在样本的选择上无法克服样本的分布问题会使分布边缘化造成新

样本是噪声样本导致正负类边界模糊影响模型结果。对于边界数据界定非常严

格的样本 产生的噪声样本的代价会很大而本文提出的基于频次的少数

过抽样技术  则可以很好地避免这一问题由于频率和均值的计算会生

成准确性更高的新样本且更能增强少数类样本的数据分布特征从而使机器更容

易学习。

为了证明这一观点选择 ?@N 下的三个正负样本不同比例的数据集（煤矿高

能地震波数据集、肺癌患者数据集和心力衰竭患者数据集） 分别对比学习器

（随机森林）使用  和  的实验数据。其中随机森林学习器采

用默认参数设置使用  折交叉验证 中的 6 近邻参数取值为 。为便于

对比新算法的优势 三个数据集的正负数据分布情况如表Ø Ø

ØØØØ

ØØ

ØØ

所示  和

 的 .= 曲线下的 8?@ 值如图Ø Ø

ØØØØ

ØØ

ØØ

所示。

表 1样本不均衡分布情况统计

Table 1Statistics of Unbalanced Distribution of Samples

样本分布煤矿高能地震波数据集

肺癌患者

数据集

心力衰竭

患者数据集

正样本数量（例）

  

剩余21页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3543
资源: 1万+

面向非均衡数据的糖尿病并发症预测.docx

面向非均衡数据的二进制排队搜索特征选择机制.docx

基于Matlab滤波器及均衡器设计 (2).docx

深信服上网行为及负载均衡技术方案 (2).docx

物联网背景下,智能社区发展浅析和趋势预测.docx

数据结构模拟试卷.docx

Python数据可视化实战 第7章 新零售智能销售数据可视化实战 教案.docx.docx

2010年11月信息系统项目管理师下午论文题预测.docx

2020年护士资格考试知识点：抑制糖尿病并发症.docx

集团企业大数据分析数据治理平台建设方案.docx

4种SEM常用的数据分析方法-精选.docx

《数据仓库数据平台与数据中台对比》.docx

基于能源大数据中心的数据商业运营模式研究.docx

基于Python的上下班时间预测模型.docx

数据安全合规实践(三)数据溯源系统的思考.docx

一体化智能化公共数据平台数据安全服务建设方案.docx

基于微信小程序的数据结构学习平台设计.docx

(完整版)银行数据质量管理暂行办法.docx

数据治理那些事(1)-数据治理认知和分类.docx

学习笔记5：数据预处理与数据挖掘十大经典算法.docx

基于PC104总线构架的数据采集与控制系统.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

matlab批量读取excel表格数据并处理画图

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

最新资源

Python数据可视化实战第7章新零售智能销售数据可视化实战教案.docx.docx