分类算法总结.docx资源-CSDN文库

版权申诉

120 浏览量 2022-06-14 14:11:56 上传评论收藏 26KB DOCX 举报

资源详情

资源评论

分类算法总结

分类算法

数据挖掘中有很多领域，分类就是其中之一，什么是分类，

分类就是把一些新得数据项映射到给定类别的中的某一个类别,比如说当我们发表一篇文章的时候，就可以

自动的把这篇文章划分到某一个文章类别，一般的过程是根据样本数据利用一定的分类算法得到分类规则，

新的数据过来就依据该规则进行类别的划分.

分类在数据挖掘中是一项非常重要的任务，有很多用途，比如说预测,即从历史的样本数据推算出未来数据

的趋向，有一个比较著名的预测的例子就是大豆学习。再比如说分析用户行为，我们常称之为受众分析，通

过这种分类，我们可以得知某一商品的用户群,对销售来说有很大的帮助。

分类器的构造方法有统计方法，机器学习方法,神经网络方法等等。常见的统计方法有 knn 算法，基于事例

的学习方法。机器学习方法包括决策树法和归纳法，上面讲到的受众分析可以使用决策树方法来实现 .神经

网络方法主要是 bp 算法，这个俺也不太了解。

文本分类，所谓的文本分类就是把文本进行归类，不同的文章根据文章的内容应该属于不同的类别，文本

分类离不开分词，要将一个文本进行分类，首先需要对该文本进行分词,利用分词之后的的项向量作为计算

因子，再使用一定的算法和样本中的词汇进行计算，从而可以得出正确的分类结果 .在这个例子中，我将使

用庖丁分词器对文本进行分词。

2。4.1 主要分类方法介绍解决分类问题的方法很多［40—42］ ,单一的分类方法主要包括：决策树、贝叶

斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成

学习算法,如 Bagging 和 Boosting 等。

决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无

次序、无规则的实例中推理出以决策树表示的分类规则.构造决策树的目的是找出属性和类别间的关系,用它

来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并

根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论.

主要的决策树算法有 ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ 和 SPRINT 算法等.它们在选择测试属性采用

的技术、生成的决策树的结构、剪枝的方法以及时刻，能否处理大数据集等方面都有各自的不同之处.

(2）贝叶斯

贝叶斯（Bayes)分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法.这

些算法主要利用 Bayes 定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个

类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在

实际情况中经常是不成立的，因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类

算法,如 TAN（Tree Augmented Na?ve Bayes)算法，它是在贝叶斯网络结构的基础上增加属性对之间的关联

来实现的。

人工神经网络（Arti/cial Neural Networks，ANN）是一种应用类似于大脑神经突触联接的结构进行信息

处理的数学模型。在这种模型中，大量的节点（或称”神经元”,或"单元”)之间相互联接构成网络,即"神

经网络"，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训

练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。

目前，神经网络已有上百种不同的模型,常见的有 BP 网络、径向基 RBF 网络、Hop/eld 网络、随机神经网络

（Boltzmann 机)、竞争神经网络（Hamming 网络，自组织映射网络）等。但是当前的神经网络仍普遍存在收

敛速度慢、计算量大、训练时间长和不可解释等缺点。

k—近邻(kNN，k-Nearest Neighbors)算法是一种基于实例的分类方法.该方法就是找出与未知样本 x 距离最

近的 k 个训练样本，看这 k 个样本中多数属于哪一类，就把 x 归为那一类。k-近邻方法是一种懒惰学习方法，

它存放样本,直到需要分类时才进行分类，如果样本集比较复杂，可能会导致很大的计算开销,因此无法应用

到实时性很强的场合。

(5）支持向量机

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

版权申诉

分类算法总结.docx

评论0

最新资源

分类算法总结.docx

评论0

最新资源

相关推荐

2022年阵列信号处理中DOA算法分类总结.docx

机器学习分类算法实验报告.docx

机器学习算法总结.docx

数据挖掘实验报告-综合实验2-分类与预测的综合实验.docx

数据结构与算法分析总结.docx

互联网校招题库资料笔试面试真题具体面试问题回答技巧腾讯阿里培训资料.zip

扫地机器人的路径规划算法综述.docx

计算机网络知识点总结.docx

基于Python进行分类算法实验(人工智能)的设计与实现.docx

人工智能编程课程总结.docx

基于python的微博情感分析与文本分类系统的设计与实现.docx

基于小波的信号去噪方法研究.docx

基于python的行人识别系统的设计与实现.docx

毕业论文ssm401基于分类算法的学业警示预测.docx

基于python的邮件分类系统设计与实现.docx

大数据代码分享.docx

智能问答系统调研.docx

大数据处理过程.docx

KepOPC DA2UA实现从OPCDA到OPCUA的转换及读写互操作

kkFileView-4.4.0-SNAPSHOT.tar.gz

Midjourney-关键词大全

“未来工厂”建设导则.pdf

2024年Java基础面试题，附带详细解析答案

腾讯QQ秀立项调研PPT

5G介绍PPT.pptx

海盗派测试分析.pdf

2024年最新最全面的Java后端面试资料

CHATGPT训练指令模板.docx

基于SpringBoot的个人博客系统设计与实现-论文.pdf