分类算法总结
分类算法
数据挖掘中有很多领域,分类就是其中之一,什么是分类,
分类就是把一些新得数据项映射到给定类别的中的某一个类别,比如说当我们发表一篇文章的时候,就可以
自动的把这篇文章划分到某一个文章类别,一般的过程是根据样本数据利用一定的分类算法得到分类规则,
新的数据过来就依据该规则进行类别的划分.
分类在数据挖掘中是一项非常重要的任务,有很多用途,比如说预测,即从历史的样本数据推算出未来数据
的趋向,有一个比较著名的预测的例子就是大豆学习。再比如说分析用户行为,我们常称之为受众分析,通
过这种分类,我们可以得知某一商品的用户群,对销售来说有很大的帮助。
分类器的构造方法有统计方法,机器学习方法,神经网络方法等等。常见的统计方法有 knn 算法,基于事例
的学习方法。机器学习方法包括决策树法和归纳法,上面讲到的受众分析可以使用决策树方法来实现 .神经
网络方法主要是 bp 算法,这个俺也不太了解。
文本分类, 所谓的文本分类就是把文本进行归类,不同的文章根据文章的内容应该属于不同的类别,文本
分类离不开分词,要将一个文本进行分类,首先需要对该文本进行分词,利用分词之后的的项向量作为计算
因子,再使用一定的算法和样本中的词汇进行计算,从而可以得出正确的分类结果 .在这个例子中,我将使
用庖丁分词器对文本进行分词。
2。4.1 主要分类方法介绍解决分类问题的方法很多[40—42] ,单一的分类方法主要包括:决策树、贝叶
斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成
学习算法,如 Bagging 和 Boosting 等。
决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无
次序、无规则的实例中推理出以决策树表示的分类规则.构造决策树的目的是找出属性和类别间的关系,用它
来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并
根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论.
主要的决策树算法有 ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ 和 SPRINT 算法等.它们在选择测试属性采用
的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处.
(2)贝叶斯
贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法.这
些算法主要利用 Bayes 定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个
类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在
实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类
算法,如 TAN(Tree Augmented Na?ve Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联
来实现的。
人工神经网络(Arti/cial Neural Networks,ANN)是一种应用类似于大脑神经突触联接的结构进行信息
处理的数学模型。在这种模型中,大量的节点(或称”神经元”,或"单元”)之间相互联接构成网络,即"神
经网络",以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训
练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。
目前,神经网络已有上百种不同的模型,常见的有 BP 网络、径向基 RBF 网络、Hop/eld 网络、随机神经网络
(Boltzmann 机)、竞争神经网络(Hamming 网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收
敛速度慢、计算量大、训练时间长和不可解释等缺点。
k—近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法.该方法就是找出与未知样本 x 距离最
近的 k 个训练样本,看这 k 个样本中多数属于哪一类,就把 x 归为那一类。k-近邻方法是一种懒惰学习方法,
它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用
到实时性很强的场合。
(5)支持向量机
评论0
最新资源