机器学习中类属于监督学习中的六种经典的分类算法_监督学习算法资源-CSDN文库

决策树算法

朴素贝叶斯

需积分: 50 141 浏览量 2019-03-29 10:53:34 上传评论 2 收藏 23KB DOCX 举报

资源推荐

资源详情

资源评论

机器学习：通俗的说就是让机器自己去学习，然后通过学习到的知识来指导进一步的判断。

机器学习分为监督学习、无监督学习

监督学习是给定输入样本集，机器就可以从中推演出指定目标变量的可能结果，比如预测

明天下雨的概率或者对投票者按照兴趣进行分组，之所以称为监督学习，是因为这类算法

必须知道预测什么。监督学习又分为分类和回归两种类型，比如根据五年的天气预报信息

进行学习后，将温度作为输入得到下雨或不下雨的输出，就是分类。回归是用于预测数值

型数据，比如根据五年的天气预报信息预测是否下雨的一个概率值。

无监督学习是指有一些问题，但是不知道答案，此时数据没有类别信息，也没有给定目标

值，在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程称为聚类，将寻

找描述数据统计值的过程称之为密度估计。

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据，当机

器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成之后输入测试样本。

分类算法：

k-近邻算法、决策树算法、基于概率论的分类方法：朴素贝叶斯、 Logistic 回归、支持向

量机、AdaBoost 元算法

a)k-近邻算法

工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在

标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，

将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最

相似数据（最邻近）的分类标签。一般来说，我们只选择样本数据集中前 k 个最相似的数

据，这就是 k-近邻算法中 k 的出处，通常 k 是不大于 20 的整数。最后，选择 k 个最相似

数据中出现次数最多的分类，作为新数据的分类。

k-近邻算法的一般流程

1. 收集数据：可以使用任何方法

2. 准备数据：距离计算所需要的数值，最好是结构化的数据格式

3. 分析数据：可以使用任何方法

4. 训练算法：此步骤不适用于 k-近邻算法

5. 测试算法：计算错误率

6. 使用算法：首先需要输入样本数据和结构化的输出结果，然后运行 k-近邻算法判定输

入数据属于哪个分类，最后应用对计算出的分类执行后续的处理。

k-近邻算法是分类数据最简单最有效的算法，k-近邻算法是基于实例的学习，使用算

法时我们必须由接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集，如

果训练的数据集很大，必须使用大量的存储空间，实际使用时可能非常耗时。另一个

缺陷是无法给出任何数据的基础结构信息。

b)决策树

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什

么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，

回归树对连续变量做决策树。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

内容反馈

qq_41887141

粉丝: 0
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip