【免费】LearningSpark中文版11章1资源-CSDN文库

需积分: 0 43 浏览量 2022-08-08 19:27:54 上传评论收藏 117KB DOCX 举报

资源详情

资源评论

资源推荐

Machine Learning with MLlib

MLib是Spark上用于实现机器学习功能的Spark库。MLib被设计成在集群上并行的运行，包

含了大量的学习算法和支持spark所有的编程语言。本章将向您讲解如何在你的程序中使用

Mlib，并提供通用的使用方法。

机器学习本身就是一门足以填满很多书的学科，所以很抱歉，在本章中我们没有足够的空间

去详细的向您阐述机器学习。如果你很熟悉机器学历，这章将向您阐述如何使用spark；但

是即使你对机器学习很陌生，你也可以将本章的材料和其他的材料结合起来。本章的内容面

向想使用spark的有机器学习背景的数据分析师，以及与机器学习专家一起工作的工程师。

Overview

MLib 的设计和体系很简单：用 RDDs 代表所有的数据，让你在分布式的数据集上运行各种算

法。MLib 引进了几个数据类型（如 labled points 和 vectors）,但是最终，它只是简单的一组

在 RDDs 上调用的函数。比如，要用 MLib 去实现文本分类（如识别垃圾邮件）功能，你可

能做下面的这些事情：

1．将一个包含信息的字符串类型的 RDD 作为开始。

2．运行一个类型识别算法将文本转换成数值特征（要适合机器学习算法），这将返回一个

包含 vector 类型的 RDD。

3．在 RDD 的 vectors 上运行分类算法（如 logistic regression 逻辑回归）；它将返回一个用

于识别新点的模型对象。

4．在一个测试数据集上运行这个模型，并用一个 MLIB 的评估函数去评估它。

关于 MLib 一个需要注意的事是，MLib 只包含在集群上运行很好的并行算法。因为一些经典

的机器学习算法不是为并行平台而设计的，所以没有包含在 MLib 中。但是另一方面，Mlib

也包含了几个为集群设计的新近研究算法，如分布式随机森林（distributed random forests）、

K-means||，和交替最小二乘法（alternating least squares）。这种选择意味着 MLib 最适合于

在打数据集上运行算法。如果你想在很多小数据集上训练不同的学习模型，还是在每个节点

上运行单节点学习库（如 Weka 或 SciKit-Learn）比较好，或许能够使用 spark map()跨节点

并行调用它。同样的，为了选择最优的算法配置，通常将相同的算法在小数据集上以不同参

数配置进行训练。你可以在 Spark 上用一个参数 list（作为输入）运行 parallelize（）去在不

同的节点上训练不同的算法，接着在每个节点上运行单节点机器学习库。但是，当你有个一

个需要训练模型的大的、分布式的数据集的时候，MLib 的表现是突出的。

最后，在 Spark1.0 和 spark1.1 中，MLib 接口相对较为低级，给你不同的函数去调用以实现

不同的任务，而不像高级的工作流通常需要一个学校管道（如，将输入分为训练和测试数据，

或者尝试很多的参数集合）。在 Spark1.2 中，MLib 获得了一个附加（写作本章时仍在实验）

pipeLine API 去创建这个管道。这个 API 类似于像 Scikit-Learn 高级库，从而有望实现简单的

去实现完整的、自调谐的管道。我们将在本章的末尾预览一下这个 API，但是我们主要还是

集中（讲解）在这些低级的 API。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余8页未读，立即下载

评论0

内容反馈

UEgood雪姐姐

粉丝: 31
资源: 319

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip