没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
103页
机器学习主要利用已知数据学习和推理其中未知的、潜在的概率分布的重要特性,揭示数据样本中变量(或特征)之间的关系。影响机器学习性能的最重要因素之一是向系统提供的数据的质量。随着计算机技术的高速发展和广泛应用,高维度的大规模数据不断涌现和积累,这些高维数据中存在着大量的冗余、无关特征,给现有的机器学习算法提出了更高的要求,带来了巨大挑战。特征选择是机器学习、模式识别和统计学等领域的重要研究课题之一,是数据预处理的一种重要而常用的手段。特征选择根据样本的分布特性,基于某种评估标准,从原始特征空间中选取一个最优的特征子集代替原始特征空间,所选择的特征子集具有与原始特征空间相近甚至更好的分类性能。特征选择算法可以有效地剔除冗余特征和无关特征,提高机器学习算法的泛化性能和运行效率,在实际应用中得到了广泛的推广。特征选择算法主要分为 Filter、Wrapper 和 Embedded 模式三大类,其中 Filter 模式由于其速度快和通用性强等特点备受青睐。然而,现有的 Filter特征选择算法存在这样的问题:要么选择出最具区分能力的若干特征作为最优特征子集,要么选择出区分能力较高且相互之间不冗余的
资源推荐
资源详情
资源评论
提 要
随着计算机技术的日益发展,在各个领域中所采集的数据集规模不断增大,特别是
高维数据中存在的大量冗余和无关特征给机器学习带来了巨大的挑战。特征选择是为了
解决高维度数据计算问题而衍生的,通过剔除冗余特征和无关特征,提高机器学习算法
的泛化性能和运行效率。随着研究的深入,特征之间复杂的相互关系对机器学习算法的
影响被逐渐地认识到,如何在特征选择过程中识别和保留具有交互关系的有益特征组
合,是目前仍未很好解决的难题。本文主要致力于辨别特征相互作用中冗余和依赖关系,
研究能够选择出高度相关、内部依赖和低度冗余特征子集的 Filter 特征选择算法。提出
了基于 Banzhaf 权利指数的特征评估及选择算法、基于 Shapley 值的特征选择算法优化
方法和基于动态加权的特征选择算法。针对基因表达数据在疾病诊断中的应用问题,提
出了基于动态相关性分析的基因选择算法。在公开测试数据集上的实验结果表明本文提
出的这些算法均能获得良好的性能,达到了预期的效果和目的。
摘 要
I
摘 要
机器学习中特征选择问题研究
机器学习主要利用已知数据学习和推理其中未知的、潜在的概率分布的重要特性,
揭示数据样本中变量(或特征)之间的关系。影响机器学习性能的最重要因素之一是向
系统提供的数据的质量。随着计算机技术的高速发展和广泛应用,高维度的大规模数据
不断涌现和积累,这些高维数据中存在着大量的冗余、无关特征,给现有的机器学习算
法提出了更高的要求,带来了巨大挑战。特征选择是机器学习、模式识别和统计学等领
域的重要研究课题之一,是数据预处理的一种重要而常用的手段。特征选择根据样本的
分布特性,基于某种评估标准,从原始特征空间中选取一个最优的特征子集代替原始特
征空间,所选择的特征子集具有与原始特征空间相近甚至更好的分类性能。特征选择算
法可以有效地剔除冗余特征和无关特征,提高机器学习算法的泛化性能和运行效率,在
实际应用中得到了广泛的推广。特征选择算法主要分为 Filter、Wrapper 和 Embedded 模
式三大类,其中 Filter 模式由于其速度快和通用性强等特点备受青睐。然而,现有的 Filter
特征选择算法存在这样的问题:要么选择出最具区分能力的若干特征作为最优特征子
集,要么选择出区分能力较高且相互之间不冗余的一些特征作为最优特征子集,而在实
际情况下,部分冗余的特征之间具有相互支持和依赖的特性,将此类特征视为冗余剔除
反而会降低学习算法的性能。
本文采用了信息理论和博弈理论中的多种手段区分特征之间的冗余和依赖关系,围
绕如何选择出高度相关、内部依赖和低度冗余的特征子集这一问题,开展了研究工作,
具体包括提出了两种特征选择算法和一个特征选择算法优化方法,以及针对基因表达数
据的基因选择算法。概括而言,本文的主要贡献和创新点包括:
1. 对特征选择问题和相关技术进行了概括性的介绍,简述了特征选择算法研究的国
内外现状及意义。重点分析和讨论了 Filter 模式的特征选择算法的相关技术和主要问题,
通过具体的实例指出了目前该类算法存在的缺陷和不足。这些内容的讨论和分析是开展
下一步工作的基础。
2. 提出了基于 Banzhaf 权利指数的特征评估及选择算法 CoFS。首先,利用联盟博
弈理论中关于利益分配的 Banzhaf 权力指数方法,统计分析了每个特征所拥有的获胜(依
赖)联盟的个数进而对其赋以权重,通过权值将具有依赖特性的特征从其它特征中分离
出来,其中获胜联盟的评判取决于该联盟中与待评估特征具有依赖关系的特征个数;然
后,通过结合 mRMR 评估标准得到了具有高度相关、内部依赖和低度冗余的特征子集,
提高了学习算法的泛化能力和分类性能。
吉林大学博士学位论文
II
3. 考虑到目前已存在众多成熟的特征选择算法,且它们在各个领域已经有着广泛而
成功的应用,提出了基于 Shapley 值的特征选择算法优化方法 CGOP。鉴于已提出的基
于 Banzhaf 权利指数的特征评估算法对噪声数据比较敏感和通用性不强等问题,CGOP
算法首先采用 Shapley 值评估特征的重要程度,利用 Shapley 值自身所具有的加权特性
对小联盟的权值进行偏向,更符合选取紧致特征子集的要求;其次,在牺牲一定时间复
杂度的前提下,采用近似联合互信息和近似联合条件互信息更准确地从质的角度评判了
待评估特征是否在给定联盟中获胜,这从一定程度上辨别了待评估特征与联盟子集间的
依赖和冗余关系,通过 Shapley 值可以最大程度上同时将依赖和冗余特征分离开来;最
后,给出了一个特征选择优化的一般性框架,有效地提升了现有的基于信息度量特征选
择算法的性能。
4. 提出了基于动态加权的特征选择算法 DWFS。该算法的主要特点是候选特征依据
其与已选特征的相互关系(冗余或依赖)赋予动态权值,每当新特征被选出后候选特征
的权值动态地调整,其中,调整候选特征权值的依据是:新选特征作为已知条件后,其
与类别之间的互信息与原互信息之间上下波动的比率。DWFS 算法通过不断提高与已选
特征子集具有依赖关系的候选特征的权值,以及降低与之具有冗余关系的特征的权值,
从而能够在较低时间复杂度的情况下选择高度相关、内部依赖和低度冗余的特征子集。
5. 针对基因表达数据在临床诊断中的实际应用问题,借鉴 DWFS 算法的动态性思
想,提出了基于动态相关性分析的基因选择算法 DRGS,并将其在肿瘤诊断中进行了应
用分析。该方法的基本思想是候选基因与肿瘤类别之间的相关性是根据与已选基因子集
的依赖/冗余关系动态调整的,当候选基因与已选基因子集中较多基因具有依赖(冗余)
关系时,其被选择的概率将得到增大(降低)。所得到的基因子集除了通过分类准确率
进行实验验证外,还采用基因集合富集分析方法考察了所选基因的生物学意义,从而在
病理功能性的角度验证了所选基因子集是否具有肿瘤相关的生物学功能。
本文的研究致力于解决选取高度相关、内部依赖和低度冗余的特征子集用于机器学
习,提出的方法丰富了特征选择领域的研究内容。这些研究不仅为特征选择技术的进一
步发展起到了促进作用,还为特征变量间交互关系的发现提供了借鉴手段。因此,具有
一定的理论意义和应用价值。
关键词:
机器学习,模式识别,特征选择,信息理论,联盟博弈理论,Banzhaf 权利指数,
Shapley 值,基因选择
目 录
I
目 录
第 1 章 绪论..............................................................................................1
1.1研究背景和意义.......................................................................................1
1.2国内外研究现状及评述...........................................................................2
1.3研究内容与主要工作...............................................................................8
1.4论文组织结构...........................................................................................9
第 2 章 相关知识介绍....................................................................................11
2.1特征选择.................................................................................................11
2.1.1特征选择的过程..............................................................................12
2.1.2搜索策略..........................................................................................13
2.1.3评估标准..........................................................................................14
2.2信息论和信息度量.................................................................................16
2.2.1信息熵的定义..................................................................................17
2.2.2互信息、条件互信息和联合互信息..............................................19
2.2.3信息度量标准简述..........................................................................20
2.3联盟博弈理论.........................................................................................22
2.3.1联盟博弈模型..................................................................................23
2.3.2联盟博弈的解..................................................................................23
2.4本章小结.................................................................................................24
第 3 章 基于 Banzhaf 权利指数的特征评估及选择算法..............................25
3.1引言........................................................................................................25
3.2相关性分析方法.....................................................................................26
3.3基于 BANZHAF 权利指数的特征评估算法...............................................27
3.3.1Banzhaf 权利指数............................................................................27
3.3.2特征评估算法..................................................................................28
3.4计算复杂度优化.....................................................................................30
3.5特征选择过程.........................................................................................30
3.6实验结果和分析.....................................................................................33
吉林大学博士学位论文
II
3.6.1数据集及实验设置..........................................................................33
3.6.2实验结果及分析..............................................................................35
3.6.3讨论..................................................................................................41
3.7本章小结.................................................................................................42
第 4 章 基于 Shapley 值的特征选择算法优化方法......................................43
4.1引言........................................................................................................43
4.2相关、依赖和冗余性度量方法.............................................................44
4.3SHAPLEY 值................................................................................................45
4.4基于 SHAPLEY 值的特征评估算法............................................................46
4.5特征选择算法优化过程.........................................................................49
4.6实验结果和分析.....................................................................................50
4.6.1数据集及实验设置..........................................................................51
4.6.2实验结果及分析..............................................................................52
4.7本章小结.................................................................................................59
第 5 章 基于动态相关的特征选择算法及其生物学应用.............................61
5.1引言........................................................................................................61
5.2基于动态加权的特征选择算法.............................................................63
5.2.1相关率定义......................................................................................63
5.2.2特征选择算法..................................................................................65
5.2.3实验设计..........................................................................................66
5.2.4实验结果和分析..............................................................................67
5.2.5讨论..................................................................................................70
5.3基于动态相关性分析的基因选择算法.................................................72
5.3.1相关工作..........................................................................................72
5.3.2基因相关性分析..............................................................................73
5.3.3基因选择过程..................................................................................75
5.3.4实验结果与分析..............................................................................76
5.3.5基因集合富集分析..........................................................................81
5.3.6讨论..................................................................................................82
剩余102页未读,继续阅读
资源评论
「已注销」
- 粉丝: 795
- 资源: 3612
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Qt开发知识、经验总结 包括Qss,数据库,Excel,Model/View等
- IV数据.xlsx
- 一些深度学习中的小例子,适合新手学习使用
- foldcraftlauncher_262944.apk
- 珍藏多年的基于matlab实现潮流计算程序源代码集合,包含多个潮流计算程序.rar
- 使用FPGA实现串-并型乘法器
- 基于matlab实现针对基于双曲线定位的DV-Hop算法中误差误差出一种基于加权双曲线定位的DV-Hop改进算法.rar
- 基于matlab实现由遗传算法开发的整数规划,车辆调度问题.rar
- 电视家7.0(对电视配置要求高).apk
- 免费计算机毕业设计-基于JavaEE的医院病历管理系统设计与实现(包含论文+源码)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功