没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
机器学习:通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。
机器学习分为监督学习、无监督学习
监督学习是给定输入样本集,机器就可以从中推演出指定目标变量的可能结果,比如预测
明天下雨的概率或者对投票者按照兴趣进行分组,之所以称为监督学习,是因为这类算法
必须知道预测什么。监督学习又分为分类和回归两种类型,比如根据五年的天气预报信息
进行学习后,将温度作为输入得到下雨或不下雨的输出,就是分类。回归是用于预测数值
型数据,比如根据五年的天气预报信息预测是否下雨的一个概率值。
无监督学习是指有一些问题,但是不知道答案,此时数据没有类别信息,也没有给定目标
值,在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为聚类,将寻
找描述数据统计值的过程称之为密度估计。
为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据,当机
器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。
分类算法:
k-近邻算法、决策树算法、基于概率论的分类方法:朴素贝叶斯、 Logistic 回归、支持向
量机、AdaBoost 元算法
a)k-近邻算法
工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在
标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,
将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最
相似数据(最邻近)的分类标签。一般来说,我们只选择样本数据集中前 k 个最相似的数
据,这就是 k-近邻算法中 k 的出处,通常 k 是不大于 20 的整数。最后,选择 k 个最相似
数据中出现次数最多的分类,作为新数据的分类。
k-近邻算法的一般流程
1. 收集数据:可以使用任何方法
2. 准备数据:距离计算所需要的数值,最好是结构化的数据格式
3. 分析数据:可以使用任何方法
4. 训练算法:此步骤不适用于 k-近邻算法
5. 测试算法:计算错误率
6. 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行 k-近邻算法判定输
入数据属于哪个分类,最后应用对计算出的分类执行后续的处理。
k-近邻算法是分类数据最简单最有效的算法,k-近邻算法是基于实例的学习,使用算
法时我们必须由接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如
果训练的数据集很大,必须使用大量的存储空间,实际使用时可能非常耗时。另一个
缺陷是无法给出任何数据的基础结构信息。
b)决策树
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什
么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,
回归树对连续变量做决策树。
资源评论
qq_41887141
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功