C4.5 是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标
是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来
描述,每一个元组属于一个互斥的类别中的某一类。C4.5 的目标是通过
学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新
的类别未知的实体进行分类。
C4.5 由 J.Ross Quinlan 在 ID3 的基础上提出的。ID3 算法用来构
造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非
树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而
每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定
类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着
该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适
合于探测性的知识发现。
从 ID3 算法中衍生出了 C4.5 和 CART 两种算法,这两种算法在数据
挖掘中都非常重要。下图就是一棵典型的 C4.5 算法对数据集产生的决
策树。
数据集如图 1 所示,它表示的是天气情况与去不去打高尔夫球之间的关
系。
评论0
最新资源