结合信息论和范数的并行随机森林算法.docx资源-CSDN文库

版权申诉

87 浏览量 2022-11-28 20:29:41 上传评论收藏 375KB DOCX 举报

资源推荐

资源详情

资源评论

分类算法是一种有监督的学习算法,它能够根据有标记的信息发现分类规

则、构造分类模型,从而预测未含标记的数据属性特征

[1]

。在分类算法中,随机森

林（random forest,RF）以其具有稳定性强、对噪声和异常值有较好容忍性等

特点

[2]

,近年来已被应用于文本分类

[3]

、环境预测

[4]

、信用评估

[5]

、生物信息

[6]

、

医疗诊断

[7]

等领域,受到人们的广泛关注。

随着信息技术和网络技术的发展,大数据成为研究热点,相较于传统数据 ,

大数据具有 4V 特性——Volume（数量大）、Variety（种类多）、Velocity（速

度快）、Value（价值密度低）

[8]

,这使得传统随机森林算法在处理大数据时所

需运行时间较长,内存容量较多,且通过提升计算机硬件水平来满足人们对大数

据分析与处理的需求,显得尤为困难。此时并行化的计算思想变得非常重要,通

过改进传统的随机森林算法并与分布式计算模型相结合成为当前研究的主要

方向。

近年来在大数据处理方面,Google 开发的 Map-Reduce 并行编程模型由于

操作简单、自动容错、扩展性强等优点深受广大学者和企业的青睐。同时,以

Hadoop、Spark 为代表的分布式计算架构也受到了越来越多的关注

[9]

。目前许

多基于 MapReduce 计算模型的随机森林算法已成功应用到大数据的分析与处

理领域中。其中,基于 MapReduce 的并行化随机森林算法 MR_RF

[10]

,采用分而

治之的思想,调用 Map-Reduce 模型将数据分区后传递给多个计算节点构建基

分类器,汇聚每个计算节点输出的基分类器得到随机森林模型。接着,再次调用

MapReduce 模型,利用构建好的随机森林对测试集进行预测得到分类准确度,

实现了随机森林算法的并行化,但该算法前后调用两次并行化框架,中间结果多

次的读出和写入,消耗了大量的时间。为了降低 MR_RF 算法的时间复杂度,钱

雪忠等人提出了一种改进的 MR_RF 算法

[11]

,利用袋外数据直接计算出分类模

型的泛化误差,以此判断随机森林的分类准确率,减少了调用并行框架的次数。

然而在大数据环境下,数据集中大量的冗余以及不相关特征降低了构建随机森

林模型时决策树所选特征的质量,进而影响了随机森林模型整体的分类准确度。

为降低大数据集中的冗余与不相关特征对模型的影响,Chen 等人提出了一

种并行随机森林算法（parallel random forest,PRF）

[12]

,通过计算特征信息增

益率的方式,选出最优的 K 个训练特征与其余训练特征随机搭配,对训练特征降

维,并利用袋外数据作为训练集计算出每棵决策树对应的分类准确度作为权重,

用于模型预测阶段。虽然 PRF 算法优化了训练特征,提升了随机森林的分类准

确度,但没有减少数据集本身冗余与不相关特征的个数,故生成的训练特征集依

然还有较多的冗余与不相关特征;针对以上情况,Hu 等人提出了一种基于最大

信息系数的并行随机森林算法 PRFMIC

[13]

,通过计算最大信息系数将特征分为

三个区间,删除低相关区间的特征,选取高相关区间和中相关区间内的特征组成

特征子集,并行构建随机森林模型,算法虽然考虑到了不相关特征对随机森林模

型的影响,但数据中存在的冗余特征在随机森林建模阶段非但不能提供有效的

信息,而且增加了决策树与决策树之间相关性,影响随机森林模型整体的准确度;

此外,上述算法在生成训练特征集时未考虑到训练特征的信息量,由低信息量的

训练特征集训练出的决策树影响了随机森林整体的准确度;同时,算法在预测分

类阶段,由于负载不平衡造成该阶段所需时间过多,影响了随机森林整体的并行

化效率。如何减少大数据集中冗余与不相关特征,如何提高训练特征信息量以

及如何提升算法的并行效率等仍然是目前亟待解决的问题。针对这些问题,本

文提出了基于信息论和范数的并行随机森林算法（ parallel random forest

algorithm based on information theory and norm,PRFITN）。首先,该算法基

于信息增益和 Frobenius 范数设计了一种混合降维策略 DRIGFN（dimension

reduction based on information gain and Frobenius norm）,获得降维后的数

据集,有效减少了冗余及不相关特征数;此外,算法提出了一种基于信息论的特征

分组策略（feature grouping strategy based on information theory,FGSIT）,

根据 FGSIT 策略将特征分组,采用分层抽样方法,保证了随机森林中决策树构

建时特征子集的信息量,提高了分类结果的准确度;最后,考虑到集群负载对并行

算法效率的影响,在 Reduce 阶段提出了一种键值对重分配策略（redistribution

of key-value pairs,RSKP）,获取全局的分类结果,实现了键值对的快速均匀分

配,从而提高了集群的并行效率。实验结果表明,该算法在大数据环境下,尤其是

针对特征数较多的数据集有更好的分类效果。

1 算法及相关概念介绍

1.1 相关概念介绍

定义 1（信息增益

[14]

）已知离散变量 X 和其对应的类别 Z,则信息增益

IG(Z;X)由下式计算：

IG(Z;X)=H(Z)-H(Z|X)

面的权值,X 是数据向量矩阵;（2）利用核函数求解分类超平面,得到超平面权

值 υ;（3）利用超平面权值 υ 预测数据分类。

2 PRFITN 算法

PRFITN 算法主要包括三个阶段：数据降维、特征分组和并行构建随机森

林。（1）在数据降维阶段,提出 DRIGFN 策略,准确地识别和删除数据集中的

冗余和不相关特征 ,获得降维后的数据集 DB*;（ 2 ）在特征分组阶段 , 提出

FGSIT 策略用于度量特征的重要性,并在此基础上循环分配特征,以此获得两组

特征子集、Q、S;（3）在并行构建随机森林阶段,提出 RSKP 策略用于优化

MapReduce 计算模型,提升其并行化效率,并利用优化后的 MapReduce 模型并

行构建随机森林、预测数据集分类,得到随机森林的准确度。

2.1 数据降维

目前,降维算法主要包括特征选择和特征提取两个方向,然而在大数据环境

下,由于数据集中存在大量冗余与不相关特征,故单独使用特征选择或特征提取

方法,都无法获得较优的特征集合。针对这一问题,本文提出 DRIGFN 策略用于

识别和过滤大数据环境下的冗余和不相关数据。首先结合 MapReduce 模型,并

行计算特征信息增益值,以此删除不相关特征;接着利用 Frobenius 范数评估信

息损失量、分类误差以及控制分类器过拟合,并在此基础上提出全局优化函数

用于迭代优化降维参数。假设 X=[x1,x2,…,xd]∈Rn×d 表示原始数据集 DB 的

d 维特征空间中的 n 个样本,数据集 DB 包含 υ 个不同类别,Y∈Rn×1 表示特征

矩阵 X 所对应的标签,则 DRIGFN 策略如下：

2.1.1 特征选择

对于数据集 DB,特征选择的主要目的是减少不相关特征的数量。其具体过

程为：首先,使用 Hadoop 中默认的文件块策略,将原始数据集的特征空间划分

成大小相同的文件块 Block; 接着 , 文件块 Block 作为输入数据 , 根据定义

1,Mapper 节点通过调用 Map 函数以键值对<key,value>的形式统计出每个特

征的信息增益（key 为特征名称,value 为对应特征的信息增益）,组合每个键值

对得到特征信息增益集合;最后,根据特征对应的信息增益值对集合 A 中元素降

序排列 , 移除集合 A 中排序较为靠后的特征 , 重新组合得到新的特征矩阵

剩余22页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3574
资源: 1万+

结合信息论和范数的并行随机森林算法.docx

随机森林算法.docx

基于随机森林的特征选择算法.docx

随机森林算法的一些应用情况.docx

随机森林算法最详细的笔记.docx

Python入门教程之随机森林算法的实现.docx

一种变步长最小平均p范数自适应滤波算法.docx

基于伽马范数最小化的图像去噪算法.docx

基于Lawson范数的通用lncosh稀疏自适应算法.docx

基于范数和相关性的GSM天线组合选择算法.docx

数据挖掘之随机森林算法实验报告.docx

论文研究-人体姿势估计中随机森林训练算法的并行化.pdf

Python技术随机森林算法详解与实现.docx

使用随机森林算法实现优质股票的选择.docx

数据挖掘之随机森林算法实验报告 (2).docx

非高斯噪声下基于Wilcoxon范数的变步长符号扩散式仿射投影算法.docx

常见范数MATLAB (2).docx

基于原子范数的无网格稀疏恢复非正侧视阵空时自适应处理算法.docx

含交叉项的混合二范数粒子群优化算法.pdf

基于快速协同表示分类和组内预测重构系数向量l2范数的人脸识别算法.pdf

论文研究-改进的并行随机森林算法及其包外估计.pdf

结合随机森林面向对象的森林资源分类.docx

基于空间变换的随机森林算法.docx

基于随机森林算法建模的糖尿病预警系统设计与实现.docx

基于随机森林算法的航空公司个性化推荐系统.docx

基于戴帽L1范数的双支持向量机.docx

基于加权稀疏与加权核范数最小化的图像去噪.docx

基于二阶全变分与Lp伪范数的图像解模糊研究.docx

L1、L2范数学习笔记.docx

一种基于加权改进平滑l0范数的DOA估计方法.docx

最新资源