hadoop权威指南(第2版

所需积分/C币:45 2014-10-22 09:48:58 23.34MB PDF
收藏 收藏
举报

ce算法的一种开源应用,是Google(谷歌)开创其帝国的重要基石。本书内容丰富,展示了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以了解如何建立与运行Hadoop集群。. 本书完全通过案例学习来展示如何用Hadoop解决特殊问题,它将帮助您: 使用Hadoop分布式文件系统(HDFS)来存储海量数据集,通过MapReduce对这些数据集运行分布式计算.. 熟悉Hadoop的数据和I/O构件,用于压缩、数据集成、序列化和持久处理 洞悉编写MapReduce实际应用程序时常见陷阱和高级特性 设计、构建和管理专用的Hadoop集群或在云上
O Reilly Media,nc介绍 O' Reilly media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知 识。自1978年开始,O' Reilly一直都是前沿发展的见证者和推动者。超级极客们 正在开创着未来,而我们关注真正重要的技术趋势一一通过放大那些“细微的信 号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者, O'Reilly的发 展充满了对创新的倡导、创造和发扬光大 o' Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN); 组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make 杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与 人的纽带。OˆReil!的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖, 共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择, OReilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服 务或者面授课程,每一项 O'Reilly的产品都反映了公司不可动摇的理念一一信息 是激发创新的力量。 业界评论 O Reilly radar博客有口皆碑。” “ O'Reilly凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的 业务 Business 2.0 “oˆ Reilly Conference是聚集关键思想领袖的绝对典范。” CRN “一本 O'Reilly的书就代表一个有用、有前途、需要学习的主题。” rish Times Tim是位特立独行的商人,他不光放眼于最长远、最广阔的视野并且切实 地按照 Yogi Berra的建议去做了:‘如果你在路上遇到岔路口,走小路(岔 路)。’回顾过去Tim似乎每一次都选择了小路,而且有几次都是一闪即瞬的 机会,尽管大路也不错 -inux Journal www.topsage.com www.topsage.com 推荐序 由 Google公司硏发的 Google文件系统和 MapReduce编程模型以其Web环境下处 理大规模海量数据的特有魅力,在学术界和工业界引起了非同小可的反响。以此为 开端,学术界不断涌现出针对海量数据处理、立足于 Mapreduce的研究成果。而 在工业界,大量类似于 Google文件系统、釆用类 Mapreduce编程模型的系统也得 到了广泛的部署和应用 今天,在像互联网应用、科学数据处理、商业智能数据分析等具有海量数据需求的 应用变得越来越普遍时,无论是从科学硏究还是从应用开发的角度来看,掌握像 Google文件系统和 Mapreduce编程模型这样的技术已成为一种趋势。在这样的背 景下,实现了 Mapreduce编程模型的 Hadoop开源系统就成为大家一种自然而又合 理的选择。 Mapreduce编程模型之所以受到欢迎并迅速得到应用,在技术上主要有三方面的 原因。首先, Mapreduce所釆用的是无共享大规模集群系统。集群系统具有良好 的性价比和可伸缩性,这一优势为 Mapreduce成为大规模海量数据平台的首选创 造了条件 其次, MapReduce模型简单、易于理解、易于使用。大量数据处理问题,包括很 多机器学习和数据挖掘算法,都可以使用 Mapreduce实现。 第三,虽然基本的 Mapreduceε模型只提供一个过程性的编程接口,但在海量数据 环境、需要保证可伸缩性的前提下,通过使用合适的查询优化和索引技术, MapReduce仍然能够提供相当好的数据处理性能 显然,要真正掌握 Mapreduce编程技术,需要对上述技术有一个较为深入的了 解,也需要熟悉支撑 MapReduce的运行环境及系统的部署要求。非常令人兴奋的 是, Hadoop开源项目负责人 Tom white所写的 Hadoop: The Definite Guide一书为 我们解决了这一问题。 www.topsage.com 读者所看到的这本巛 Hadoop权威指南》是对 Tom White原著的翻译,它用中文再 现了原著的精彩。它不仅介绍了 Hadoop系统的使用方法,还深入讲解了 Hadoop 的运行原理,并介绍了多个基于 Hadoop的海量数据处理系统的使用和应用实例。m 尤其是,本书的译者都是在第一线从事 MapReduce编程与 Hadoop研究的大学教 师,他们的这种经历使得《 Hadoop权威指南》的内容生动而又准确。这使得本书 无论是对于 Hadoop的使用者,还是对于海量数据分析应用的开发者、研究者,都 具有很强的参考价值。 周立柱 北京,清华园 ⅳ推荐序 www.topsage.com 译者序 据2011年4月加州大学圣地亚哥分校公布的报告°,2008年全球2700万台服务器 共处理的数据量已达957ZB°。如何有效管理、高效分析上述海量数据已成为当 前急需解决的问题。另外,三大类海量数据(商业数据、科学数据、冈页数据)的异 构性(充斥着结构化、半结构化以及非结构化数据)又进一步加剧了海量数据处理的 难度。2011年2月出版的《科学》杂志刊登的专题,围绕目前各类数据量的激增 展开讨论,认为海量数据的搜集、维护和使用已成为科学研究的主要工作。对许多 学科而言,海量数据处理意味着更严峻的挑战,然而更好地管理和分析这些数据也 将会获得意想不到的收获。 学术界和工业界已在关系数据管理方面积累了较多经验。20世纪70年代,关系模 型的提出, IBM System R和伯克利 Ingres系统的研制成功,证明了关系数据库系 统处理商业数据的优越性。20世纪80年代,由此模型派生出的 IBM DE2, Sybase SQL Server、 Oracle database等以事务处理(OLTP)为主的数据库系统的蓬勃发展, 使数据库系统得到了充分的商业化。20世纪90年代,W.H. Inmon提出的整合历 史数据,通过在线分析(OLAP)、数据挖掘等方法实现商业规划、决策支持等商业 智能服务的数据仓库系统,为数据库系统的应用开辟了崭新的篇章,然而这一长达 40年、一体适用( one size fits al)数据库系统架构在当今的海量数据处理面前显 得力不从心,逐渐无法胜任当前的需求。 2003年以来,谷歌陆续公布了GFS, Mapreduce等高可扩展、高性能的分布式海 量数据处理框架,并证明了该框架在处理海量网页数据时的优越性。上述框架实现 了更高应用层次的抽象,使用户无需关注复杂的内部工作机制、无需具备丰富的分 o James E. Short Roger E. Bohn Chaitanya Baru.How Much Information? 2010 Report on Enterprise Server Information ②1ZB=1万亿GB。 ③“ Special Online Collection: Dealing with Data”, Science special issue201l。网址为 https://www.sciencemag.org/site/special/data. www.topsage.com 布式系统知识及开发经验,即可实现大规模分布式系统的部署,以及海量数据的并 行处理。 Apache Hadoop开源项目克隆了这一框架,并推出了 Hadoop系统。该系 统已被学术界、工业界认可,且广泛采纳,并孵化出了众多子项目(如Pig, Zookeeper,Hive等),日益形成一个易部署、易开发、功能齐全、性能优良的系统。 华东师范大学海量计算硏究所从2006年开始从事海量数据方面的研究,且在集群 288核,40TB存储)部署了 Hadoop系统,并成功完成多项硏究。多年从事有关 海量数据学术研究和项目实施的经历,使我们对 Hadoop系统及其开发有了较深入 的理解和认识,在 Hadoop部署、调优和优化等方面积累诸多经验。2010年,Tom White推出了《 Hadoop权威指南》的第2版,该书内容组织得很好,思路清晰 且紧密结合实际问题,于是我们重新翻译了此书。希望能为广大的 Hadoop管理者 和使用者提供部分帮助。 全书主要包括16章和3个附录。本书的翻译和审校由周傲英教授组织完成。参加 翻译工作的有周敏奇(第1章~第4章),王跷玲(第5章~第7章),金澈清(第8 章~第10章,附录A、B、C),钱卫宁(第1章-第13章),宫学庆(第14章~第 15章),张蓉(第16章)。译者排序按照所译章节先后排列,并受可列人数限制,仅 列出前四位。 由于本书涉及面广,许多术语目前尚无固定译法,翻译难度确实很大。有时,为 个术语选择一个简洁、达意的译法,译者虽经过反复推敲、讨论,但仍然难免词不 达意。此外,由于译者水平有限,译文中的不当之处也在所难免。译文中的错误 应当由译者负责,我们真诚地希望同行和读者们不吝赐教。如果能将您的意见和 建议发往mqzhou@seiecnu.edu.cn,xlang@seiecnu.edu.cn,cqin@sei.ecnu.edu.cn, waglan@seiecnu.edu.cn,Xigong@sei.ecnu.edu.cn,zhang@sel.ecnu.edu.cn,我们将不 胜感激 周敏奇 上海,华东师大海量计算研究所 译者序 www.topsage.com 前言 数学和科普作家马丁·加德纳( Martin gardner)曾在一次釆访中谈到 除了微积分,我什么都不会。这个是我的专栏之所以成功的秘密。我花了好长 段时间才明白如何以大多数读者都能明白的方式将我所知道的东西娓娓道来 在很多方面,这也是我对 Hadoop的感受。它的内部工作机制非常复杂,依托于 个集分布式系统理论、实际工程和常识于一体的系统。而对于门外汉, Hadoop则 难以理解。 但我们并不需要这样来理解它。避开 Hadoop的内核不谈, Hadoop提供的用于构 建分布式系统的工具——用于数据存储、数据分析和协调处理——都非常简单。如 果说这些工具有一个共通的主题,那就是它们提供了一定层次的抽象——为偶尔有 大量数捃需要存储的程序员,或有大量数据需要分析的程序员,或有大量计算机需 要管理的程序员,同时却没有足够时间、技巧或者不想成为分布式系统专家的程序 员,提供一套组件使其能够利用 Hadoop来构建基础平台。 这样简单、通用的特性集,使得我在开始使用 Hadoop时,明显觉得 Hadoop的确 值得广泛应用。但起初(2006年初),设置、配置和编写 Hadoop应用是一门高深的 艺术。之后,情况确实有所改善:文档增多了;示例增多了;碰到问题时,可以向 大量邮件列表发邮件进行询问。对于新手而言,最大的任务是理解这个技术有哪些 能耐,它有哪些擅长,如何使用它。这正是我写这本书的动机。 Apache Hadoop社区经过很多努力最终实现了 Hadoop。在过去的三年多时间里, Hadoop项目开花结果并孵化出约半打子项目。到目前,这个软件在性能、可靠 性、可扩展性和可管理性方面实现了巨大的飞跃。但是,为了让更多人采用 Hadoop,我认为我们需要把 Hadoop变得更好用。这需要创建更多的工具,集成更 ①“ The science of fun”, Alex bellos, The guardian,5月31日,2008年,网址为 http://www.guardian.co.uk/science/2008/may/31/maths.science www.topsage.com 多的系统,创建新的、改进的API函数。我希望我自己能参与,同时也希望本书 能够鼓励其他人参与 Hadoop的开发。 说明 在正文中讨论特定的Java类时,我常常会忽略其包的名称以避免杂乱。如果想知 道一个类在哪个包内,要想查阅相关子项目的 Hadoop Java API文档,可以访问 ApacheHadoop主页Chttp://hadoop.Apacheorg如果使用IDE编程,则可以充分 利用其自动补全机制(也称自动完成机制)。 相似的,尽管它偏离传统的编码规范,但如果要导入同一个包的多个类,程序可以 使用星号通配符来节省空间(例如 mport org. apache hadoop.jo*)。 本书中的示例代码可以从本书网站下载,网址为http://www.hadoopbook.como可 以根据网页上的指示获取本书示例所用的数据集以及运行本书示例所需要的详细说 明、更新链接、额外的资源与我的博客。 本书包含哪些内容? 本书是这样组织的。第1章强调为什么需要Hadoφp,然后概述项目发展历史。 第2章简要介绍 Mapreduce。第3章深入剖析 Hadoop文件系统,特别是HDFS。 第4章包含 Hadoop的基本IO操作:数据完整性、压缩、序列化及基于文件的数 据结构。 接下来的第5章一第8章深入剖析 Map reduce。第5章全景呈现了 Mapreduce应 用开发所涉及的具体步骤。第6章从用户的角度来看如何在 Hadoop中实现 Mapreduce。第7章主要包含 MapReduce编程模型和 Mapreduce可以使用的各种 数据格式。第8章是 Mapreduce高级主题,包括排序和数据连接。 第9章和第10章主要面向 Hadoop管理员,主要描述如何在 Hadoop集群上设置和 维护运行HDFS和 Mapreduce。 第11章一第15章专门介绍在 Hadoop上构建的特定项目或相关内容。第11章和 第12章描述的是Pg和Hive,这两个分析平台构建在HDFS和 Mapreduce之上, 而第13章、第14章和第15章分别介绍 HBase、 ZooKeeper和 Scoop。 最后,第16章收集了 Apache Hadoop社区成员提供的一系列实例 www.topsage.com

...展开详情
试读 127P hadoop权威指南(第2版
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    一个资源只可评论一次,评论内容不能少于5个字
    qq_20030803 公司的大数据要开动了,学习中。
    2014-10-30
    回复
    yehui8746 这个资源不错,正在学习中
    2014-10-24
    回复
    img
    u014120684

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    hadoop权威指南(第2版 45积分/C币 立即下载
    1/127
    hadoop权威指南(第2版第1页
    hadoop权威指南(第2版第2页
    hadoop权威指南(第2版第3页
    hadoop权威指南(第2版第4页
    hadoop权威指南(第2版第5页
    hadoop权威指南(第2版第6页
    hadoop权威指南(第2版第7页
    hadoop权威指南(第2版第8页
    hadoop权威指南(第2版第9页
    hadoop权威指南(第2版第10页
    hadoop权威指南(第2版第11页
    hadoop权威指南(第2版第12页
    hadoop权威指南(第2版第13页
    hadoop权威指南(第2版第14页
    hadoop权威指南(第2版第15页
    hadoop权威指南(第2版第16页
    hadoop权威指南(第2版第17页
    hadoop权威指南(第2版第18页
    hadoop权威指南(第2版第19页
    hadoop权威指南(第2版第20页

    试读已结束,剩余107页未读...

    45积分/C币 立即下载 >