Hadoop Spark大数据巨量分析与机器学习整合开发实战 ,林大贵

所需积分/C币:48 2018-11-23 09:00:09 99.88MB PDF

Hadoop Spark大数据巨量分析与机器学习整合开发实战 ,林大贵 扫描版
内容简介 本书从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如: 分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机 器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作 和范例程序详解,展示了如何在单台 Windows系统上通过 Virtual box虚拟机安装多台 Linux虚拟机,如何建 立 Hadoop集群,再建立 Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有 条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近 于大数据和机器学习真实的运行环境 本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实 践用的教材。 本书为博硕文化股份有限公司授权出版发行的中文简体字版本 北京市版权局著作权合同登记号:图字01-2016-7640 本书封面贴有清华大学出版社防伪标签,无标签者不得销售 版权所有,侵权必究。侵权举报电话:010-6278298913701121933 图书在版编目(C|P)数据 Hadoop+ Spark大数据巨量分析与机器学习整合开发实战/林大贵著.一北京:清华大学出版社,2017 ISBN978-7-30245375-8 L.①H…Ⅱ.①林…Ⅲ.①数据处理软件IV.①TP274 中国版本图书馆CIP数据核字(2016)第260890号 责任编辑:夏毓彦 封面设计:王翔 责任校对:闫秀华 责任印制:沈露 出版发行:清华大学出版社 patit:http://www.tup.comcn,http://www.wqbook.com 地址:北京清华大学学研大厦A座 社总机:010-62770175 邮邮 编:100084 购:010-62786544 投稿与读者服务:010-62776969,service@tup.tsinghua.edu.cn 质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn 印装者:北京鑫丰华彩印有限公司 经销:全国新华书店 开本:190mm×260mm 印张:27.75 字数:730千字 版次:2017年1月第1版 印次:2017年1月第1次印刷 印数:1~3000 定价:79.00元 产品编号:069535-01 序 大数据的影响力正深入到各个领域和行业中。特别在商业、经济以及其他领域,将大 量数据进行分析后,便可得到许多数据的关联性。这些关联性可用于预测商业趋势、营销 研究、金融财务、疾病研究、打击犯罪等。大数据对每一个企业的决策方式将发生变革— 决策方式将基于数据和分析的结果,而不是依靠经验和直觉。 信息科技( Information Technology,IT)浪潮的第一波是大型计算机,第二波是个人 计算机(PC机),第三波是网络,第四波是社交媒体,第五波则是“大数据”。每一波的 信息科技浪潮都会带来工作与生活方式的改变,创造大量商机、新的产业、大量的工作机 会。例如,在网络时代,创造了淘宝、百度、 Google(谷歌)、 Amazon(亚马逊)等大公 司,以及无数com公司。 每一波浪潮开始时,相关人才的需求激增,从而造成相关人才的紧缺。因此对个人而 言,如果能在浪潮兴起时就投入,往往成果很丰硕,并且有机会占有重要职位。例如,网 络刚兴起时,每个公司都需要建立网站,但是这方面的人才当时相对不够,能掌握编写网 页相关应用程序设计语言的工程师就能够获得高薪。之后,投入的人越来越多,这方面的 工程师就没有当初那么吃香了。 之前的科技浪潮,也许你没有机会躬逢其盛,或是没有机会在浪潮初期进入。而目前 大数据的浪潮方兴未艾,正是进入的好时机。根据IBM公司调查预估,大数据在2014年 的市场规模为71亿美元,2015年则达到了180亿美元,并将以每年增长20%的速度持续 成长。机会是给有准备的人的,学会了大数据分析的相关技能,让你有机会获得更好的薪 资与职业发展前景。根据美国调查机构 Robert Half Technology2016年趋势报告,在美国, 大数据工程师的薪水年增长89%,年薪大约13万至18万美金(约合人民币85万元~120 万元)。因为人才短缺,企业不惜重金挖角。(搜索 Robert Half Technology2016就可以下 载此调查报告。) 本书的主题是 Hadoop+ Spark大数据分析与机器学习。众所周知, Hadoop是运用最多 的大数据平台,然而 Spark异军突起,与 Hadoop兼容而且运行速度更快,各大公司也开 始加入 Spark的开发。例如,IBM公司加入 Apache Spark社区,打算培育百万名数据科学 家。谷歌( Google)公司与微软公司也分别应用了 Spark的功能来构建服务、发展大数据 分析云与机器学习平台。这些大公司的加入,也意味着未来更多公司会采用 Hadoop+ Spark Hadoop+park大数据巨量分析与机器学习整合开发实战 进行大数据的数据分析。 然而,目前市面上虽然很多大数据的书,但是多半偏向理论或应用层面的介绍,网络 上的信息虽然很多,但是也很杂乱。本书希望能够用浅显易懂的原理介绍和说明,再加上 上机实践操作、范例程序,来降低大数据技术的学习门槛,带领读者进入大数据与机器学 习的领域。当然整个大数据的生态系非常庞大,需要学习的东西太多。希望读者通过本书 的学习,有了基本的概念后,能比较容易踏入这个领域,以便继续深入与研究其他大数据 的相关技术。 林大贵 推荐序 如同本书作者所说的,信息技术已经来到了第五波浪潮一—“大数据”,在因特网、 社交媒体、电子商务等交叉发展和呼应下,“网络”这个巨人已经拥有了难以计数的海量 数据,有传统结构化的数据、半结构化的数据,但更多的是非结构化的数据。这些貌似杂 乱无章、毫无意义的海量数据,却是一座等待发掘的巨大“金矿”。 这些海量数据中蕴含着极为丰富的人类知识库,它是一笔巨大的信息资产。这些原本 很难收集整理的大数据,随着云计算时代的来临,对它们进行及时甚至是实时分析和处理 并加以有效利用,就不再是“海市蜃楼”了。 与大数据相关的内容中,不外乎三个方面:大数据理论,大数据分析和处理的技术, 大数据的实践应用。目前与大数据有关的出版物中,偏重于理论教学和技术介绍一类的比 较多,而偏重于上机实践和自我学习的书却比较少见。因此,本书非常适合大数据学习的 初学者和正在学习大数据理论和技术的人员作为上机实践用的教材 本书从浅显易懂的“大数据和机器学习”原理介绍和说明开始,介绍大数据和机器学 习——分类、分析、训练、建模、预测——机器学习(推荐引擎)、机器学习(二元分类)、 机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。 在本书中,不是对这些原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范 例程序,这样极大地降低了读者学习大数据技术的门槛,对于需要直接上机实践的学习者 而言,本书更像是一本大数据学习的实践上机手册。书中首先展示了如何在单台 Windows 系统上通过 Virtual box虚拟机安装多台 Linux虚拟机,而后建立 Hadoop集群,再建立 Spark开发环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人 读者上机实践的实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可 以将实践平台搭建在多台实体计算机上。 在搭建好大数据上机实践的软硬件环境之后,就可以在各个章节的学习中结合本书提 供的范例程序逐一设置、修改、调试和运行,从中学到大数据实践应用中核心技术的真谛 对大数据进行高效的“加工”,萃取大数据中蕴含的“智能和知识”,实现数据的“增 值”,并最终将其应用于实际工作或者商业中 Hadoop+ Spark大数据巨量分析与机器学习整合开发实战 大数据与云计算的关系密不可分,涉及众多关键技术,如分布式处理、分布式数据库 和云存储、虚拟化技术等,本书并未在这些方面深入讲解,因为它们不是本书的重点,建 议需要深入学习这方面内容的读者去寻找相关出版物,结合本书的实践来丰富和完善自己 的大数据知识体系。 资深架构师赵军 2016年7月 本书章节与范例程序介绍 本书特色 本书的特色是提供了大量上机实践操作与范例程序。 上机实践操作 般人可能会认为大数据需要很多台机器的环境才能学习,但是通过本书介绍使用 Virtual Box虚虛拟机的方法,就能在自家的计算机上演练建立 Hadoop集群,并且建立 Spark开发环境。 同时,上机实践操作介绍了 Hadoop MapReduce与HDFS的基本概念,以及 Spark RDD与 MapReduce的基本概念。 范例程序 以实际范例程序来学习程序设计是最有效率的学习方式。因此本书使用实际的数据集,配 合范例程序代码来介绍各种机器学习的算法,并示范如何获取数据、训练数据、建立模型、预 测结果,由浅入深地介绍 Spark机器学习。 本书章节内容及上机实践操作与范例程序介绍 基本概念 章节名称 说明 第1章大数据与机器学习 介绍大数据、 Hadoop、HDFS、 MapReduce、 Spark、机器学习 Hadoop的安装 章节名称 说明 上机实践操作 第2章 Virtual box虚拟机软 件的安装 安装 Virtual Box虚拟机,让你可以在 Windows系统上安装多台 Linux虚 拟机 第3章 Ubuntu Linux操作系上机实践操作 统的安装 安装 Ubuntu linux操作系统 Hadoop+ Spark大数据巨量分析与机器学习整合开发实战 (续表) 章节名称 说明 第4章 Hadoop Single Node上机实践操作 Cluster的安装 安装单台机器的 Hadoop Single Node Cluster 第5章 Hadoop Multi Node上机实践操作 Cluster的安装 安装多台机器的 Hadoop Multi Node Cluster > Hadoop的基本功能 章节名称 说明 第6章 Hadoop HDFS命令 上机实践操作 示范如何使用HDFS命令 介绍 Hadoop MapReduce的原理 第7章 Hadoop MapReduceWordCount java范例程序 示范使用 Hadoop MapReduce计算文章内的每一个单词出现的次数 Spark的基本功能 章节名称 说明 上机实践操作 第8章 Spark的安装与介绍 Spark安装与 spark- shell交互界面在不同环境中的运行示范 上机实践操作 第9章 Spark rdd 介绍 Spark最基本的功能RDD( Resilient distributed Dataset,弹性分布式 数据集)的基本运算 上机实践操作 第10章Spak的集成开发环安装集成开发环境(IDE) 境 WordCount scala范例程序 示范使用 Spark MapReduce计算文章内的每一个单词出现的次数 机器学习(推荐引擎) 章节名称 说明 介绍如何使用 Spark MLlib以 Movielens数据集建立电影的推荐引擎 (Recommendation Engine Recommend. scala范例程序 第11章创建推荐引擎 示范如何获取数据、训练模型、推荐用户或电影,建立电影的推荐系统 Als Evalution. scala范例程序 示范如何调试推荐引擎参数,找出最佳的参数组合 本书章节与范例程序介绍 机器学习(二元分类) 章节名称 说明 第12章 StumbleUpon数据集 StumbleUpon数据集属于二元分类问题,可以根据网页的特征预测哪些网页 是暂时性的或是可以长久存在的 Run Decision Tree Binary. scala范例程序 第13章决策树二元分类示范如何使用决策树二元分类分析 StumbleUpon数据集,预测哪些网页是暂 时性的或可以长久存在的,并且找出最佳的参数组合,提高预测准确度 RunLogisticRegression WithSGDBinary. scala范例程序 第14章逻辑回归二元分类示范如何使用决策树二元分类分析 StumbleUpon数据集,预测哪些网页是暂 时性的或是可以长久存在的,并且找出最佳的参数组合,提高预测准确度 RunS VMWithSGDBinary. scala范例程序 第15章支持向量机SVM二示范如何使用支持向量机SWM二元分类分析 StumbleUpon数据集,预测哪 元分类 些网页是暂时性的或是可以长久存在的,并且找出最佳的参数组合,提高预 测准确度 Run Naive Bayes Binary scala范例程序 第16章朴素贝叶斯二元分示范如何使用朴素贝叶斯( Naive-Bayes)二元分类分析 StumbleUpon数据 类 集,预测哪些网页是暂时性的或是可以长久存在的,并且找出最佳的参数组 合,提高预测准确度 机器学习(多元分类) 章节名称 说明 Run Decision TreeMulti scala范例程序 第17章决策树多元分类 示范如何使用决策树多元分类分析 Covtype数据集(森林覆盖植被),根 据不同的土地条件可以预测该地的植被,并且找出最佳的参数组合,提高 预测准确度 机器学习(回归分析) 章节名称 说明 Run Decision TreeRegression. scala范例程序 第18章决策树回归分析 示范介绍决策树回归分析,分析 Bike Sharing数据集。根据天气和假日条件,可 以预测每一小时租借的数量,并且找出最佳的参数组合,提高预测准确度 数据可视化 章节名称 说明 上机实践操作 第19章使用 Apache Zeppelin 数据可视化 安装 Zeppelin并使用ml-l00k数据集,示范使用 Spark SQL进行数据分 析与数据可视化

...展开详情

评论 下载该资源后可以进行评论 1

YueLinbo 资源真实。。。。。。
2018-12-06
回复
img
tankilo

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐