没有合适的资源?快使用搜索试试~ 我知道了~
LearningSpark中文版11章1
需积分: 0 0 下载量 43 浏览量
2022-08-08
19:27:54
上传
评论
收藏 117KB DOCX 举报
温馨提示
试读
9页
最后,在Spark1.0和spark1.1中,MLib接口相对较为低级,给你不同的函数去调用以实现不同的任务,而不像高级的工作流通常需要一个学校管道(如,将输入
资源详情
资源评论
资源推荐
Machine Learning with MLlib
MLib是Spark上用于实现机器学习功能的Spark库。MLib被设计成在集群上并行的运行,包
含了大量的学习算法和支持spark所有的编程语言。本章将向您讲解如何在你的程序中使用
Mlib,并提供通用的使用方法。
机器学习本身就是一门足以填满很多书的学科,所以很抱歉,在本章中我们没有足够的空间
去详细的向您阐述机器学习。如果你很熟悉机器学历,这章将向您阐述如何使用spark;但
是即使你对机器学习很陌生,你也可以将本章的材料和其他的材料结合起来。本章的内容面
向想使用spark的有机器学习背景的数据分析师,以及与机器学习专家一起工作的工程师。
Overview
MLib 的设计和体系很简单:用 RDDs 代表所有的数据,让你在分布式的数据集上运行各种算
法。MLib 引进了几个数据类型(如 labled points 和 vectors),但是最终,它只是简单的一组
在 RDDs 上调用的函数。比如,要用 MLib 去实现文本分类(如识别垃圾邮件)功能,你可
能做下面的这些事情:
1. 将一个包含信息的字符串类型的 RDD 作为开始。
2. 运行一个类型识别算法将文本转换成数值特征(要适合机器学习算法),这将返回一个
包含 vector 类型的 RDD。
3. 在 RDD 的 vectors 上运行分类算法(如 logistic regression 逻辑回归);它将返回一个用
于识别新点的模型对象。
4. 在一个测试数据集上运行这个模型,并用一个 MLIB 的评估函数去评估它。
关于 MLib 一个需要注意的事是,MLib 只包含在集群上运行很好的并行算法。因为一些经典
的机器学习算法不是为并行平台而设计的,所以没有包含在 MLib 中。但是另一方面,Mlib
也包含了几个为集群设计的新近研究算法,如分布式随机森林(distributed random forests)、
K-means||,和交替最小二乘法(alternating least squares)。这种选择意味着 MLib 最适合于
在打数据集上运行算法。如果你想在很多小数据集上训练不同的学习模型,还是在每个节点
上运行单节点学习库(如 Weka 或 SciKit-Learn)比较好,或许能够使用 spark map()跨节点
并行调用它。同样的,为了选择最优的算法配置,通常将相同的算法在小数据集上以不同参
数配置进行训练。你可以在 Spark 上用一个参数 list(作为输入)运行 parallelize()去在不
同的节点上训练不同的算法,接着在每个节点上运行单节点机器学习库。但是,当你有个一
个需要训练模型的大的、分布式的数据集的时候,MLib 的表现是突出的。
最后,在 Spark1.0 和 spark1.1 中,MLib 接口相对较为低级,给你不同的函数去调用以实现
不同的任务,而不像高级的工作流通常需要一个学校管道(如,将输入分为训练和测试数据,
或者尝试很多的参数集合)。在 Spark1.2 中,MLib 获得了一个附加(写作本章时仍在实验)
pipeLine API 去创建这个管道。这个 API 类似于像 Scikit-Learn 高级库,从而有望实现简单的
去实现完整的、自调谐的管道。我们将在本章的末尾预览一下这个 API,但是我们主要还是
集中(讲解)在这些低级的 API。
UEgood雪姐姐
- 粉丝: 31
- 资源: 319
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0