机器学习中的特征选择算法——基于互信息的最大相关最小冗余.zip

共23个文件

cpp：6个

h：6个

m：4个

版权申诉

人工智能

机器学习

191 浏览量 2024-02-16 10:54:27 上传评论收藏 968KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

机器学习中的特征选择算法——基于互信息的最大相关最小冗余.zip （23个子文件）

Feature-Selection-master

数据集

test_lung_s3.csv 55KB

test_nci9_s3.csv 1.33MB

说明文档.txt 307B

机器学习大作业报告.pdf 817KB

svm

ppca.m 157B

test_pca.m 327B

getFeaturesWithIndex.m 701B

test.m 185B

mRMR

src

Makefile 821B

main.cpp 4KB

fast-mrmr 25KB

data.mrmr 121KB

plib

Histogram.h 1KB

JointProb.h 1KB

ProbTable.h 1KB

JointProb.cpp 2KB

Histogram.cpp 1KB

ProbTable.cpp 2KB

RawData.h 1KB

MutualInfo.cpp 2KB

MutualInfo.h 1KB

RawData.cpp 3KB

utils.h 2KB

基于互信息的最大相关最小冗余特征选择

一、特征选择定义：

在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间

也可能存在相互依赖，容易导致如下的后果：

 特征个数越多，分析特征、训练模型所需的时间就越长。

 特征个数越多，容易引起“维度灾难”，模型也会越复杂，其泛化能力会下降。

特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，

提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使

研究人员易于理解数据产生的过程。

特征选择的定义如下：

给定输入数据󰇛󰇜，  󰇝



 󰇞，特征选择的目的就是从观

测空间



中，找到一个最优子空间



，使其对应的个特征能够最好的描述类别。

二、选择特征方法：

2.1 最大相关最小冗余算法（mRMR）

特征选择的一般过程可用图 1 表示。首先从特征全集中产生出一个特征子集，然后用评

价函数对该特征子集进行评价，评价的结果与停止准则进行比较，若评价结果比停止准则好

就停止，否则就继续产生下一组特征子集，继续进行特征选择。选出来的特征子集一般还要

验证其有效性。

产生过程评价函数

验证过程停止准则

Yes

Subset

Goodness of

subset

图 1 特征选择过程

综上所述，特征选择过程一般包括产生过程，评价函数，停止准则，验证过程，这 4 个

部分。其中，最重要的就是评价函数部分，它是评价一个特征子集好坏程度的准则。

通常情况下，最优的特征选择往往意味着最小化分类误差。在无监督且不指定分类器的

前提下，最小化误差通常需要最大化目标类别在子空间



数据分布的统计依赖性

（statistical dependency），这也就是 Maximal dependency 方法。

实现 Max-Dependency 的常用方法是最大相关性（Maximal Relevance）特征选择：选择

与目标类具有最大相关性的特征，利用互信息来计算相关性的大小：

给定两个随机变量以及概率密度

󰇛



󰇜



󰇛



󰇜

󰇛󰇜，互信息定义为：



󰇛



󰇜

 󰇛󰇜

󰇛󰇜

󰇛󰇜󰇛󰇜



在 Max-Relevance 中，会选择互信息

󰇛







󰇜

最大的特征，这些特征与目标类的相关性最

大。所以在顺序搜索方法中，往往会选择与目标类别互信息最大的个特征。但实际情况中，

单个的最优特征组合起来并不会获得最好的分类性能，换句话说，个最好的特征并不是最

好的个特征。所以一些研究者[1]试图找到一种方法，直接或者间接地去除特征间的冗余，

即选择最小冗余的特征。因此，一种直观的思路就是，可以利用一个启发式的搜索方法，结

合最大相关和最小冗余的特性，来选择特征，这样得到的特征性能更优[5]——Minimal-

redundancy-maximal-relevant(mRMR)。接下来主要从原理上介绍 mRMR：

最大相关原则指的是找到一个包含







个特征的特征集，使得中所有特征与类别之间的

相关性最大化，最大化的条件为：



󰇛



󰇜

 









 󰇛



󰇜







最小冗余原则指的是找到一个包含|S|个特征的特征集 S，使得 S 中的每个特征之间是互

相最大不相似，即最小相似的，最小化的条件是：



󰇛



󰇜

 











 󰇛



󰇜











最大相关最小冗余原则结合了上面两个原则，定义了运算来同时优化和：



󰇛



󰇜

  

事实上，使用上述的评价方式，利用增量搜索方式即可得到近似最优的特征。假设我们

已经有了



󰇛  个特征的集合󰇜，目的是从集合󰇝  



󰇞中找到第个特征。相应的

增量搜索算法最大化下式：











󰇟



 





 󰇛







󰇜









󰇠

2.2 特征选择算法实现：

为了设计一个有效的算法，能够找到完备且紧凑的特征子集，采用了两步特征搜索选择

方法。在第一个阶段，用 mRMR 增量选择算法先选择一个候选的特征集；第二个阶段用一

个更复杂的方案，从候选特征集中选出紧凑的特征集，作为最终特征选择的结果。

（一）选择候选特征集：

得到候选特征集的步骤如下：

1. 用 mRMR 增量选择法，从输入中选择个特征，得到一系列的特征集：



 









 



 



。

2. 比较个特征集，选择一个的范围，使得



对应的误差



相对一致，且较小。

3. 在中，选择最小的分类误差







，



即为最终得到的候选特征集。

综上所述，得到的候选特征集大小



 







。

（二）选择紧凑（Compact）的特征集：

许多复杂的算法都可以用来从一个候选集





中搜索得到紧凑的特征集。在这个特

征选择的算法中，使用封装器(Wrapper)来实现这一过程。

封装器实质上是一个分类器（如朴素贝叶斯分类器），它用选取的特征子集对样本

集进行分类，分类的精度作为衡量特征子集好坏的标准。在第一个阶段中，我们已经使

用 mRMR 算法找到了一个较小的候选特征集，所以在第二步中，大大的降低了分装器

的运算复杂度。本文中，考虑封装器的两种选择方案——前向选择和后向选择：

1. 前向选择算法：特征子集 S 从空集开始，每次选择一个特征



加入特征子集，

使得特征函数󰇛󰇜最优。简单说就是，每次都选择一个使得评价函数的取值达

到最优的特征加入，其实就是一种简单的贪心算法

2. 后向选择算法：从特征全集





开始，每次从特征集 S 中剔除一个特征



，使得

剔除特征



后评价函数值达到最优。

2.3 主成分分析（PCA）算法

主成分分析是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要

影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低

维空间。PCA 是一种用原有变量的线性组合来表示事物主要方面的分析方法。

PCA 主要用于数据降维，对于一系列例子的特征组成的多维向量，多维向量里的某些元

素本身没有区分性，比如某个元素在所有例子中都为 1，或者与 1 差距不大，那么这个元素

本身就没有区分性，用它做特征来区分，贡献会非常小。所以我们的目的是找那些变化大的

元素，即方差大的那些维，而去除掉那些变化不大的维，从而使特征留下的都是主要的成分，

同时使得计算量也大大降低。

在 MATLAB 中有 PCA 的函数 princomp(X)，对 n 行 n 列的数据集 X 做完主成分分析以后

会返回主成分系数，X 的每行表示一个样本的观测值，每一列表示特征变量。

返回的第一个参数 COEFF 是一个 p 行 p 列的矩阵，每一列包含一个主成分函数，列是

按主成分变量递减顺序排列，也就是说，COEFF 是 X 矩阵所对应的协方差矩阵 V 的所有特征

向量组成的矩阵，即变换矩阵或投影矩阵，COEFF 每列对应一个特征值的特征向量，列的排

列顺序是按特征值的大小递减排序的。

返回的 SCORE 是对主成分的打分，也就是说原来 X 矩阵在主成分空间的表示。SCORE 每

行对应样本观测值，每列对应一个主成分（变量），它的行和列的数目和 X 的行列数目相同。

返回的 latent 是一个向量，它是 X 所对应的协方差矩阵的特征值向量。

三、实验设计：

我们首先编写了 mRMR 算法的 C++代码，从特征集中选择候选子集，并保存对应特征的

评论收藏

内容反馈

版权申诉

博士僧小星

粉丝: 1820
资源: 5875

机器学习中的特征选择算法——基于互信息的最大相关最小冗余.zip

Python 笔记源码——内含python后端&机器学习等.zip

逻辑回归分类实验——【机器学习与算法分析】.pdf

逻辑回归分类实验——【机器学习与算法分析】.docx

Python项目案例开发从入门到实战源代码第18章 机器学习案例——基于朴素贝叶斯算法的文本分类.rar

高管个人特征与公司业绩——基于机器学习的经验证据.pdf

机器学习实战项目——无监督聚类&PCA tSNE降维.zip

基于最大相关最小冗余联合互信息的多标签特征选择算法

python线性回归实验——【机器学习与算法分析】.docx

大数据驱动下的共享单车短期需求预测——基于机器学习模型的比较分析.pdf

基于机器学习算法的引文情感自动识别研究——以自然语言处理领域为例.pdf

互联网金融空间聚集分析及系统性风险防范——基于t-SNE机器学习模型.pdf

基于机器学习的P2P违约预测算法比较——以“人人贷”为例.pdf

试论企业财务管理中的风险预测及处理——基于优化的BP神经网络算法.pdf

孔群零件三坐标路径规划研究——基于连续型Hopfield神经网络算法.pdf

Python3编写实用脚本程序-省市区乡村五级地址库.zip

一个机器学习新算法——HP算法的实现及研究.pdf

——————————————机器学习data.rar————————————

Python3编写实用脚本程序-从零学Python-掘金活动.zip

大学生创业意愿与创业行为影响因素研究——基于遗传算法优化BP神经网络.pdf

win10环境下vscode运行opencv(C++)(解压即用)-1号包

c++入门，核心，提高讲义笔记

仿照Visionmaster，用C++、Qt编写的视觉软件

C++STL库常用库函数总结

c++小游戏 c++小游戏

mingw-w64-install.exe

C/C++中文帮助文档

我的世界简易版（C++编写，源代码+程序）

cmu 15445 2023spring project0

QT中利用TCP协议实现了一个多线程的文件互传系统

最新资源

Python项目案例开发从入门到实战源代码第18章机器学习案例——基于朴素贝叶斯算法的文本分类.rar