机器学习资料汇总

所需积分/C币:30 2015-09-13 10:01:40 32.90MB PDF
38
收藏 收藏
举报

机器学习资料汇总,个人总结,中英文资料,持续更新
XⅣ目录 451准备数据:从文本中构建词 622SWM应用的一般框架 82局部加权线性国-141第11章使用 Apriori算法进行关联 向量… 5863SMO高效优化算法 344 83示例:预测鲍鱼的年龄…145 分析 452词练算法:从词向量计算 63PatM0算法… 84缩减系数来“理解数据 11.联分析 概率…6632应用简化菔SMO0算法处理小 841岭国归-120) 453测试算法:根据捂現实情况修 規糢数据集 84210848131使用p算法来发现须繁集4 改分类器 6264利用完整 Platt smo算法加速优化…9 843前向逐步回归………4 11生成候选项集-24 454准备数裾:文档词袋模型……6465在复杂数据上应用核函数· 85权衡偏差与方差…2 112织完整的:m1算法-201 46示例;使用朴素贝叶斯过滤垃圾 651利用核函数将数据映射到高维 86示例:预测乐高玩具套装的价格-1314从频繁项集中挖据关联规0则-230 邮件 64 86!1收集数据:使用G∞gde购 115示例:发现国会投票中的模式…22 461准各数据:切分文本……“65 652径向基核函数………16 的API 1151收集数据:构建美国国会 462测试算法:使用朴素贝叶斯 653在测试中使用核函数…108 862刘练算法:建立漢型……155 授票记录的事务数据集…213 进行交叉验证 6666示例:手写识别向题回顾…111 本章小结 1154测试算法:基于美国国会 47示例:使用村素贝叶斯分类器从个人67本章小结 第9章树回归-灬 技票记录挖掘关联規则……219 广告中获取区域倾向 第7章利用 Adaboost元算法提高分类 9』复杂数据的局部性建模 116示例:发现毒薷菇的相似特征:-20 4收集数据:导入RS源 11小结 性能灬 92连续和离散型特征的树的构建……160 42分材数据:显示地域相关的 用词111于数据集多重抽样的分类器 93将CART算法用于国回463第12章使用 FP.growt算法来高效 发现频繁项集 1agg:基于数据随机重抽 931构建树 样的分类器构建方法 932远行代吗16121F树:用于轴码数据集的有效 第5章Lgj旧灬73 94树剪枝 …167 7.1.2 boosting 方式 5基于 Logistic归和 Sigmoid函数的 72训练算法:基于错误提升分类器的 6712构建FP树 性能…… 942后剪枝 21创建F树的数据结构"……26 52基于最优化方法的最隹回归系数 73基于单层决策树构建弱分类器灬……l18 95模型树 122构定FP树 确定 74完整 adaboost算法的 96示例:树回归与标谁回归的比较-13123从一棵FP树中挖揭频繁项集…1 521梯度上升法 1231抽取条糢式基 75测试算法:基于 Adaboost p的分类…24 97使用Pton的Tkm库01U-176 522刘绯算法:使用耩度上升找 76示例:在一个难数据集上应用 91用 Tkinter t创建U-177 1232创建条件FP树…22 到最佳奉数 77 912集成Ma和er10124示例:在Twtr发现一些 523分析数据:画出决策边界…19 98本章小结 共现词 524刘练算法:随机梯度上升-811#均(类问题 125示例:从新闻网站点击流中挖掘…28 53示例:从疝气病症预测病马的死亡 7]1其他分类性能度量指标:正确率 126本章小结9 召回率及R0C曲线………28 第三部分无监督学习 531准备数据:处理数据中的缺 772基于代价函数的分类器决策 第10章利用K均值聚类算法对未标注 第四部分其他工具 13l 数据分组灬 4第13章利用PCA来简化数据 532测试算法:用Lgse回归 1]3处理非均衡问题的数据抽样 01K均值聚类算法-17米2 进行分类 8本章小结… 02使用后处理来提高秦类性能-18132 54本章小结 103二分K均值算法… 32l移动坐标轴…………243 第6章支持问量机 89第二部分利用回归预测数值型数据 104示例:地图上的点进行聚类 1322在Numy中实现PCA…246 6!基于最大间隔分隔数据 1041Yaho! lace Finder api……194 133示例:利用PCA对半导体制造数据 第8章頊测数值型数:回归 62寻找最大间隔 142对地理坐标进行聚类………496 降维 622分类器求解的优化问题…9281用线性国归找到最住拟合直线13 105本章小结 98134本章小结 6第1章机器学习基础 13机器学习的主要任务7 开发出能够识别鸟类的计算机软件,鸟类学者就可以退休了。因为鸟类学者是研究鸟类的专家, 称型的数值。我们通常将分类问题中的目标变量称为美别,并假定分类问题只存在有限个数的 因此我们说创建的是一个专家系统。 类别。 表是我们用于区分不同鸟类需要使用的四个不同的属性值,我们选用体重、翼展、有无 t Wingspan Webbed feet? Back color 脚噗以及后背颜色作为评测基准。现实中,你可能会想测量更多的值。通常的法是恻量所有可 No Buteo jamaicensis 测属性,而后再挑选出重要部分。下面测量的这四种值称之为特征,也可以称作属性,但本书 Sagittarius serpentarium 律将其称为特征。表14中的每一行都是一个具有相关特征的实例。 表1!基于四种特征的鸟物种分类表 特征 目标变量 体重(克)翼展(厘米) 濮后背顏色 100 1250 红尾骂 图12特征和标识的目标变量 2000 无无无有 41000 黑色 普通潜鸟 注意特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一 绿色 瑰丽蜂鸟 起共同组成一个训练样本。 黑色 象牙啄木鸟 为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数揚。当机器」 表的前两种特征是数值型,可以使用十进制数字;第三种特征(是否有脚噗)是二值型, 学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输八测试样本。输人測试 只可以取0或;第四神特征(后颜色)是基于自定义调色板的校举类型,这里仅选择一些常用样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的标 色彩。如果仅仅利用常见的七色作为评测特征,后背颜色也可以是一个整数。当然在七色之中选 变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。本书的后续章节将刽引更 择一个作为后背颜色有些太简单了,但作为专家系统的演示用例,这已经足够了 好地使用测试样本和训练样本信息的方法,这里就不再详述。 如果你看到了一只象牙缘啄木鸟,请马上通知我而且千万不要告诉任何人。在我到达之前, 假定这个鸟类分类程序,经过測试满足精确度要求,是否我们就可以看到机器已经学会了如 定要看住它,别让它飞跑了。(任何发现活的象牙喙啄木鸟的人都可以得到5万美元的奖励。) 何区分不同的鸟类了呢?这部分工作称之为知识表示,某些算法可以产生很容易理解的知识表 机器学习的主要在务就是分。本节我们讲达如使用表进行分类标识象牙球木示,而莱些算法的知表示也许只能为计算机所理第,知识表示可以采规集的形式,也可以 鸟从而获取5万美元的奖励大家都想从众多其他鸟类中分辨出象牙缘啄木乌,并从中获利。最采用概率分布的形式,设置可以是训练样本集中的—个实例。在其些场合中,人们问能并不想建 简单的法是餐装个食器,然后用鱼察在近进食的如果发爱象立个专家系號,而仅对限算法获的时黑删方式表京知成 壕豚木则通知我这种方法太贵了,而且专家在同时间只能出现在一个地方我们间得排常重要了 以自动化处理上述过程,安装多个带有照相机的喂食器,同时接入计算机用于标识前来进食的鸟。 本节介绍了机器学习领城涉及的关键术语,后续章节将会在必要时引人其他的术语,这里就 同样我们可以在要食器中放置称重仪器以获取乌的体重,利用计算机视觉技术来提取乌的长、不再进步说明,下一节将会介绍机器学习算法的主要狂务。 脚的类型和后背色彩。假定我们可以得到所需的全部特征信息,那该如何判断飞人进食器的鸟是 不是象牙鸡肥这个任务就是分美有很多机器学习算法非常于分类本例中的类别成13机器学习的主要任务 是鸟的物种,更具体地说,就是区分是否为象牙喙啄木鸟。 最终我们决定使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。 本节主要介绍机器学习的主要任务,并给出一个表格,帮助该者将机器学习算法转化为可实 通常我们为算法输人大量已分类数据作为算法的训练集训练集是用于训练机器学习算法的数据际运作的应用程序 样本集合,表14是包含六个训练样本的训练集,每个训练样本有种特征、一个目标变量,如图 上节的例子介绍了机器学习如何解决分类问题,它的主要任务是将实例数据划分到合适的分 127不目标变量是机器习算法的预测结果,类算法中标变量的类型通常是标称型的,类机器学习的另一项务是回,它主要用于预测数值型数据大多数人可能都见过阿归的 而在回归算法中通常是连续型的训练样本集必须确定知道目标变量的值,以便机器学习算法可 例子—数据拟合曲线:通过给定数据点的最优拟合曲线。分类和回归属于监督学习,之所以称 以发现特征和日标变量之间的关系。正如前文所述,这里的日标变量是物种,也可以简化为标之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 分享精英

关注 私信
上传资源赚钱or赚积分
最新推荐
机器学习资料汇总 30积分/C币 立即下载
1/0