本文首先介绍了数据分类的相关概念,分析了数据挖掘中的几种分类技术:
决策树分类、贝叶斯分类、神经网络分类、支持向量机分类,对其中最常用的
决策树分类算法进行了深入地研究。决策树是分类应用中采用最广泛的模型之
一,与神经网络和贝叶斯方法相比,一决策树无须花费大量的时间和进行上千次
的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外,不再需
要其他额外信息,表现了很好的分类精确度,以其规则易于提取和容易理解的
学硕士学位论文第一章绪论
优点得到了广泛应用。其核心问题是测试属性选择的策略,以及对决策树进行
剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范
围的关键技术。本文主要以决策树为研究对象,对传统决策树进行了改进,从
而扩大了决策树的应用范围。