数据挖掘分类算法比较
数据挖掘分类算法比较
分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具
有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究
者改进算法提供了依据.
一、决策树(Decision Trees)
决策树的优点:
1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。
2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般
化,比如去掉多余的或者空白的属性。
3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推
出相应的逻辑表达式。
5、易于通过静态测试来对模型进行评测.表示有可能测量该模型的可信度。
6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
7、可以对有许多属性的数据集构造决策树。
8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
决策树的缺点:
1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有
更多数值的特征。
2、决策树处理缺失数据时的困难。
3、过度拟合问题的出现。
4、忽略数据集中属性之间的相关性。