没有合适的资源?快使用搜索试试~ 我知道了~
C4.5算法的分析和实现.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 18 浏览量
2023-03-09
19:04:58
上传
评论 1
收藏 712KB PDF 举报
温馨提示
试读
12页
。。。
资源推荐
资源详情
资源评论
基于决策树技术的数据挖掘方法分析和研究
——C4.5 算法的分析和实现
摘要
大数据时代已经到来,对数据的处理越来越受到人们的关注,人们迫切需要
海量数据背后的重要信息和知识,发现数据中存在的关系和规则,获取有用的知
识,并且根据现有数据对未来的发展做出预测。决策树分类算法 C4.5 算法是数
据挖掘中最常用、最经典的分类算法,能够以图形化的形式表现挖掘的结果,从
而方便于使用者快速做出决定或预测。决策树实际在各行业应用非常广泛,如客
户资源管理(CRM)系统等。本报告从决策树的各个方面对决策树进行分析,理
解 C4.5 算法相对于 ID3 算法的改进,并对 C4.5 算法加以实现。同时也指出 C4.5
算法还存在不足。
一、具体应用场景和意义
决策树(Decision Tree)是用于分类和预测的主要技术,它着眼于从一组
无规则的样例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在
决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,
在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,
整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习
过程中不需要使用者了解很多背景知识,只要训练样例能够用属性-值对的方式
表示出来,就能使用该算法进行学习。
决策树算法在很多方面都有应用,如决策树算法在医学、制造和生产、金融
分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了
广泛应用。
决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策
树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领
域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先
对数据进行处理,利用归纳算法生成可读的规则和决策树,然后对新数据进行分
析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树的典型算法有 ID3、C4.5 和 CART 等,基于决策树的分类模型有如下
几个特点:(1)决策树方法结构简单,便于理解;(2)决策树模型效率高,对训
练集较大的情况较为适合;(3)决策树方法通常不需要接受训练集数据外的知识;
(4)决策树方法具有较高的分类精确度。
本报告主要通过分析 C4.5 算法来研究决策树算法。在决策树算法中,最常
用的、最经典的是 C4.5 算法,它在决策树算法中的主要优点是:形象直观。该
算法通过两个步骤来建立决策树:树的生成阶段和树的剪枝阶段。该算法主要基
于信息论中的熵理论。熵在系统学上是表示事物的无序度,是系统混乱程度的统
计量。C4.5 基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益
率作为属性选择的度量标准,可以得出很容易理解的决策规则。
二、现状分析
决策树技术是迄今为止发展最为成熟的一种概念学习方法。它最早产生于二
十世纪 60 年代,是由 Hunt 等人研究人类概念建模时建立的学习系统(CLS,
Concept Learning System),到 70 年代末,J Ross Quinlan 提出 ID3 算法,此
算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1975 年和 1984 年,
分别有人提出 CHAID(Chi-squared Automatic Interaction Detection)和 CART
( Classification and Regression Tree , 亦 称 BFOS ) 算 法 。 1986 年 ,
J.C.Schlimmer 提出 ID4 算法。1988 年,P.E.Utgoff 提出 ID5R 算法。1993 年,
Quinlan 本人以 ID3 算法为基础研究出 C4.5/C5.0 算法,C4.5 算法在 ID3 算法的
基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了
较大的改进,既适合于分类问题,又适合于回归问题。
决策树算法的优点如下:(1)分类精度高;(2)生成的模式简单;(3)对噪
声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一,在数据
挖掘中收到研究者的广泛关注。
数据挖掘需要选择复杂度低的算法和并行高效的策略,复杂度低的算法包括
尽量把全局最优问题转化成局部最优的问题和近似线性或尽量低阶的多项式复
杂度算法等,而高效并行的策略包括需要有高超的递归改为循环的技巧和尽量避
免使用全局信息等。
现在研究者们还在继续研究改进的决策树算法,对于 C4.5 算法研究人员们
从不同的角度对其进行了相应的改进,其中有针对 C4.5 算法处理连续型属性比
较耗时的改进,利用数学上的等价无穷小提高信息增益率的计算效率等等方面。
本报告时针对 C4.5 算法本身进行的分析和算法实现,同时会考虑进一步的深入
学习。
三、技术挑战分析与解决方案
决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或
多叉树。二叉树的内部节点 (非叶子节点)一般表示为一个逻辑判断,如形式为
a=的逻辑判断,其中 a 是属性,是该属性的所有取值:树的边是逻辑判断的分支
结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值
就有几条边。树的叶子节点都是类别标记。
由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,
都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一
棵最优决策树,主要应解决以下 3 个最优化问题:①生成最少数目的叶子节点;
②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节
点的深度最小。
ID3 算法是一种经典的决策树算法,它从根节点开始,根节点被赋予一个最
好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支上又生成新
的节点。对于最好的属性的选择标准,ID3 采用基于信息熵定义的信息增益来选
择内节点的测试属性,熵(Entropy)刻画了任意样本集的纯度。
ID3 算法存在的缺点:(1)ID3 算法在选择根节点和内部节点中的分支属性
时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性,
在有些情况下这类属性可能不会提供太多有价值的信息。(2)ID3 算法只能对描
述属性为离散型属性的数据集构造决策树。
ID3 算法的局限是它的属性只能取离散值,为了使决策树能应用与连续属性
值,Quinlan 给出了 ID3 的一个扩展算法,即 C4.5 算法。C4.5 算法是 ID3 的改
进,其中属性的选择依据同 ID3。它对于实值变量的处理与接下来论述的 CART
算法一致,采用多重分支。C4.5 算法能实现基于规则的剪枝。因为算法生成的
每个叶子都和一条规则相关联,这个规则可以从树的根节点直到叶子节点的路径
剩余11页未读,继续阅读
资源评论
不吃鸳鸯锅
- 粉丝: 8249
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功