C4.5算法的分析和实现.pdf资源-CSDN文库

版权申诉

18 浏览量 2023-03-09 19:04:58 上传评论 1 收藏 712KB PDF 举报

资源推荐

资源详情

资源评论

基于决策树技术的数据挖掘方法分析和研究

——C4.5 算法的分析和实现

摘要

大数据时代已经到来，对数据的处理越来越受到人们的关注，人们迫切需要

海量数据背后的重要信息和知识，发现数据中存在的关系和规则，获取有用的知

识，并且根据现有数据对未来的发展做出预测。决策树分类算法 C4.5 算法是数

据挖掘中最常用、最经典的分类算法，能够以图形化的形式表现挖掘的结果，从

而方便于使用者快速做出决定或预测。决策树实际在各行业应用非常广泛，如客

户资源管理（CRM）系统等。本报告从决策树的各个方面对决策树进行分析，理

解 C4.5 算法相对于 ID3 算法的改进，并对 C4.5 算法加以实现。同时也指出 C4.5

算法还存在不足。

一、具体应用场景和意义

决策树（Decision Tree）是用于分类和预测的主要技术，它着眼于从一组

无规则的样例推理出决策树表示形式的分类规则，采用自顶向下的递归方式，在

决策树的内部节点进行属性值的比较，并根据不同属性判断从该节点向下分支，

在决策树的叶节点得到结论。因此，从根节点到叶节点就对应着一条合理规则，

整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习

过程中不需要使用者了解很多背景知识，只要训练样例能够用属性-值对的方式

表示出来，就能使用该算法进行学习。

决策树算法在很多方面都有应用，如决策树算法在医学、制造和生产、金融

分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了

广泛应用。

决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策

树模型，提取有价值的分类规则，帮助决策者做出准确的预测已经应用在很多领

域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先

对数据进行处理，利用归纳算法生成可读的规则和决策树，然后对新数据进行分

析。本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的典型算法有 ID3、C4.5 和 CART 等，基于决策树的分类模型有如下

几个特点：（1）决策树方法结构简单，便于理解；（2）决策树模型效率高，对训

练集较大的情况较为适合；（3）决策树方法通常不需要接受训练集数据外的知识；

（4）决策树方法具有较高的分类精确度。

本报告主要通过分析 C4.5 算法来研究决策树算法。在决策树算法中，最常

用的、最经典的是 C4.5 算法，它在决策树算法中的主要优点是：形象直观。该

算法通过两个步骤来建立决策树：树的生成阶段和树的剪枝阶段。该算法主要基

于信息论中的熵理论。熵在系统学上是表示事物的无序度，是系统混乱程度的统

计量。C4.5 基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益

率作为属性选择的度量标准，可以得出很容易理解的决策规则。

二、现状分析

决策树技术是迄今为止发展最为成熟的一种概念学习方法。它最早产生于二

十世纪 60 年代，是由 Hunt 等人研究人类概念建模时建立的学习系统（CLS，

Concept Learning System），到 70 年代末，J Ross Quinlan 提出 ID3 算法，此

算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1975 年和 1984 年，

分别有人提出 CHAID（Chi-squared Automatic Interaction Detection）和 CART

（ Classification and Regression Tree ，亦称 BFOS ）算法。 1986 年，

J.C.Schlimmer 提出 ID4 算法。1988 年，P.E.Utgoff 提出 ID5R 算法。1993 年，

Quinlan 本人以 ID3 算法为基础研究出 C4.5/C5.0 算法，C4.5 算法在 ID3 算法的

基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了

较大的改进，既适合于分类问题，又适合于回归问题。

决策树算法的优点如下：（1）分类精度高；（2）生成的模式简单；（3）对噪

声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一，在数据

挖掘中收到研究者的广泛关注。

数据挖掘需要选择复杂度低的算法和并行高效的策略，复杂度低的算法包括

尽量把全局最优问题转化成局部最优的问题和近似线性或尽量低阶的多项式复

杂度算法等，而高效并行的策略包括需要有高超的递归改为循环的技巧和尽量避

免使用全局信息等。

现在研究者们还在继续研究改进的决策树算法，对于 C4.5 算法研究人员们

从不同的角度对其进行了相应的改进，其中有针对 C4.5 算法处理连续型属性比

较耗时的改进，利用数学上的等价无穷小提高信息增益率的计算效率等等方面。

本报告时针对 C4.5 算法本身进行的分析和算法实现，同时会考虑进一步的深入

学习。

三、技术挑战分析与解决方案

决策树构造的输入是一组带有类别标记的例子，构造的结果是一棵二叉树或

多叉树。二叉树的内部节点 (非叶子节点)一般表示为一个逻辑判断，如形式为

a=的逻辑判断，其中 a 是属性，是该属性的所有取值：树的边是逻辑判断的分支

结果。多叉树(ID3)的内部结点是属性，边是该属性的所有取值，有几个属性值

就有几条边。树的叶子节点都是类别标记。

由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因，

都会造成产生的决策树过大。因此，简化决策树是一个不可缺少的环节。寻找一

棵最优决策树，主要应解决以下 3 个最优化问题：①生成最少数目的叶子节点；

②生成的每个叶子节点的深度最小；③生成的决策树叶子节点最少且每个叶子节

点的深度最小。

ID3 算法是一种经典的决策树算法，它从根节点开始，根节点被赋予一个最

好的属性。随后对该属性的每个取值都生成相应的分支，在每个分支上又生成新

的节点。对于最好的属性的选择标准，ID3 采用基于信息熵定义的信息增益来选

择内节点的测试属性，熵（Entropy）刻画了任意样本集的纯度。

ID3 算法存在的缺点：（1）ID3 算法在选择根节点和内部节点中的分支属性

时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性，

在有些情况下这类属性可能不会提供太多有价值的信息。（2）ID3 算法只能对描

述属性为离散型属性的数据集构造决策树。

ID3 算法的局限是它的属性只能取离散值，为了使决策树能应用与连续属性

值，Quinlan 给出了 ID3 的一个扩展算法，即 C4.5 算法。C4.5 算法是 ID3 的改

进，其中属性的选择依据同 ID3。它对于实值变量的处理与接下来论述的 CART

算法一致，采用多重分支。C4.5 算法能实现基于规则的剪枝。因为算法生成的

每个叶子都和一条规则相关联，这个规则可以从树的根节点直到叶子节点的路径

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

不吃鸳鸯锅

粉丝: 8249
资源: 2万+

C4.5算法的分析和实现.pdf

数据挖掘中改进的C4.5决策树分类算法.pdf

分类挖掘算法(C4.5)[参照].pdf

论文研究-决策树C4.5算法的改进与分析.pdf

C4.5算法概述.pdf

论文研究-基于C4.5算法和AdaBoost算法的P2P流量识别方法 .pdf

C4.5数据挖掘算法的改进.pdf

论文研究-基于决策树C4.5集成算法的图像自动标注.pdf

基于C4.5算法和Hadoop云计算平台的购物意愿分析方法.pdf

数据挖掘技术C4.5算法在成绩分析中的应用.pdf

论文研究-基于C4.5算法的BBS反垃圾内容分析 .pdf

一种C4.5决策树的改进算法_常雪松.pdf

论文研究-C4.5算法在2型糖尿病分类规则建立中的应用.pdf

机器学习十大算法之一 C4.5算法

优质文档 十大经典数据挖掘算法R语言实现 共28页.pdf

c4.5算法的一种改进及其应用.pdf

C4.5算法的源代码[参照].pdf

分类挖掘算法(C4.5).pdf

基于决策树C4.5改进算法的交通数据挖掘.pdf

基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘.pdf

Cobalt Strike下载

北京邮电大学计算机考研复试笔试资料

计算机系统-笔记-HUN2021级

cs1.6老版本供下载

合成孔径雷达的经典成像算法cs(matlab)仿真代码（吐血整理，内容全，注释全）

港大CS（MSC）面试整理

合成孔径雷达RD CS OmegaK算法点目标仿真.rar

计算机科学导论原书第二版答案.zip

Cobalt-Strike-4.5

cobaltstrike4.3.zip

最新资源

优质文档十大经典数据挖掘算法R语言实现共28页.pdf