- 经过学术界和业界近10年的努力,Hadoop技术已经趋于完善而且应用广泛,几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂,而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术,学习门槛比较高,对于初学者和基础不太扎实的读者而言,有一本适合系统学习的Hadoop图书显得十分重要。本书即是专门为这两类读者量身定做的:第一,它的内容非常全面和前沿,不仅讲解了最新的Hadoop技术和第二代MapReduce,还讲解了涉及的所有周边技术,能满足系统学习的需求;第二,实战性非常强,不仅很多知识点配有精心设计的小案例,而且有完整的企业级案例,能满足操作实践的需求;第三,这一版在上一版的基础上根据最新的技术做了更新和补充,能满足读者学习最新技术的需求。本书第1版不仅取得了好的销量,而且广受好评,第2版在内容上有很大的提升,相信能让更多的读者从中受益。 —— EasyHadoop 国内专业的Hadooop社区,致力于让Hadoop大数据分析更简单 第一部分 Hadoop——一种分布式编程框架 第1 章 Hadoop简介 1.1 为什么写《Hadoop 实战》 1.2 什么是Hadoop 1.3 了解分布式系统和Hadoop 1.4 比较SQL 数据库和Hadoop 1.5 理解MapReduce 1.5.1 动手扩展一个简单程序 1.5.2 相同程序在MapReduce中的扩展 1.6 用Hadoop统计单词——运行第一个程序 1.7 Hadoop历史 1.8 小结 1.9 资源 第2 章 初识Hadoop 2.1 Hadoop 的构造模块 2.1.1 NameNode 2.1.2 DataNode 2.1.3 Secondary NameNode 2.1.4 JobTracker 2.1.5 TaskTracker 2.2 为Hadoop 集群安装SSH 2.2.1 定义一个公共账号 2.2.2 验证SSH安装 2.2.3 生成SSH密钥对 2.2.4 将公钥分布并登录验证 2.3 运行Hadoop 2.3.1 本地(单机)模式 2.3.2 伪分布模式 2.3.3 全分布模式 2.4 基于Web 的集群用户界面 2.5 小结 第3 章 Hadoop组件 3.1 HDFS 文件操作 3.1.1 基本文件命令 3.1.2 编程读写HDFS 3.2 剖析MapReduce 程序 3.2.1 Hadoop数据类型 3.2.2 Mapper 3.2.3 Reducer 3.2.4 Partitioner:重定向Mapper输出 3.2.5 Combiner:本地reduce 3.2.6 预定义mapper和Reducer类的单词计数 3.3 读和写 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小结 第二部分 实战 第4 章 编写MapReduce基础程序 4.1 获得专利数据集 4.1.1 专利引用数据 4.1.2 专利描述数据 4.2 构建MapReduce 程序的基础模板 4.3 计数 4.4 适应Hadoop API 的改变 4.5 Hadoop 的Streaming 4.5.1 通过Unix命令使用Streaming 4.5.2 通过脚本使用Streaming 4.5.3 用Streaming处理键/值对 4.5.4 通过Aggregate包使用Streaming 4.6 使用combiner 提升性能 4.7 温故知新 4.8 小结 4.9 更多资源 第5 章 高阶MapReduce 5.1 链接MapReduce 作业 5.1.1 顺序链接MapReduce作业 5.1.2 具有复杂依赖的MapReduce链接 5.1.3 预处理和后处理阶段的链接 5.2 联结不同来源的数据 5.2.1 Reduce侧的联结 5.2.2 基于DistributedCache的复制联结 5.2.3 半联结:map侧过滤后在reduce侧联结 5.3 创建一个Bloom filter 5.3.1 Bloom filter做了什么 5.3.2 实现一个Bloom filter 5.3.3 Hadoop 0.20 以上版本的Bloom filter 5.4 温故知新 5.5 小结 5.6 更多资源 第6 章 编程实践 6.1 开发MapReduce 程序 6.1.1 本地模式 6.1.2 伪分布模式 6.2 生产集群上的监视和调试 6.2.1 计数器 6.2.2 跳过坏记录 6.2.3 用IsolationRunner重新运行出错的任务 6.3 性能调优 6.3.1 通过combiner来减少网络流量 6.3.2 减少输入数据量 6.3.3 使用压缩 6.3.4 重用JVM 6.3.5 根据猜测执行来运行 6.3.6 代码重构与算法重写 6.4 小结 第7 章 细则手册 7.1 向任务传递作业定制的参数 7.2 探查任务特定信息 7.3 划分为多个输出文件 7.4 以数据库作为输入输出 7.5 保持输出的顺序 7.6 小结 第8 章 管理Hadoop 8.1 为实际应用设置特定参数值 8.2 系统体检 8.3 权限设置 8.4 配额管理 8.5 启用回收站 8.6 删减DataNode 8.7 增加DataNode 8.8 管理NameNode 和SNN 8.9 恢复失效的NameNode 8.10 感知网络布局和机架的设计 8.11 多用户作业的调度 8.11.1 多个JobTracker 8.11.2 公平调度器 8.12 小结 第三部分 Hadoop也疯狂 第9 章 在云上运行Hadoop 9.1 Amazon Web Services 简介 9.2 安装AWS 9.2.1 获得AWS身份认证凭据 9.2.2 获得命令行工具 9.2.3 准备SSH密钥对 9.3 在EC2 上安装Hadoop 9.3.1 配置安全参数 9.3.2 配置集群类型 9.4 在EC2 上运行MapReduce 程序 9.4.1 将代码转移到Hadoop集群上 9.4.2 访问Hadoop集群上的数据 9.5 清空和关闭EC2 实例 9.6 Amazon Elastic MapReduce 和其他AWS 服务 9.6.1 Amazon Elastic MapReduce 9.6.2 AWS导入/导出 9.7 小结 第10 章 用Pig编程 10.1 像Pig 一样思考 10.1.1 数据流语言 10.1.2 数据类型 10.1.3 用户定义函数 10.2 安装Pig 10.3 运行Pig 10.4 通过Grunt 学习Pig Latin 10.5 谈谈Pig Latin 10.5.1 数据类型和schema 10.5.2 表达式和函数 10.5.3 关系型运算符 10.5.4 执行优化 10.6 用户定义函数 10.6.1 使用UDF 10.6.2 编写UDF 10.7 脚本 10.7.1 注释 10.7.2 参数替换 10.7.3 多查询执行 10.8 Pig 实战——计算相似专利的例子 10.9 小结 第11 章 Hive及Hadoop群 11.1 Hive 11.1.1 安装与配置Hive 11.1.2 查询的示例 11.1.3 深入HiveQL 11.1.4 Hive小结 11.2 其他Hadoop 相关的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera 11.2.5 Katta 11.2.6 CloudBase 11.2.7 Aster Data和Greenplum 11.2.8 Hama和Mahout 11.2.9 search-hadoop.com 11.3 小结 第12 章 案例研究 12.1 转换《纽约时报》1100 万个库存图片文档 12.2 挖掘中国移动的数据 12.3 在StumbleUpon 推荐最佳网站 12.3.1 分布式StumbleUpon 的开端 12.3.2 HBase 和StumbleUpon 12.3.3 StumbleUpon 上的更多Hadoop 应用 12.4 搭建面向企业查询的分析系统——IBM的ES2 项目 12.4.1 ES2 系统结构 12.4.2 ES2 爬虫 12.4.3 ES2 分析 12.4.4 小结 12.4.5 参考文献5 0浏览会员免费
- 云计算 大数据时代的系统工程 深刻剖析云计算的特征,很好的云计算综述材料5 217浏览会员免费
- 对于希望成为 IT 架构师的普通人,这可能会使他们望而却步。那么,究竟在IT领域中工作的哪些人如此有创造力而同时又过得这样快乐呢4 95浏览会员免费
- 欧姆龙Fins通讯手册,想要自己写程序和欧姆龙PLC以太网通信的自己看5 1440浏览会员免费
- 支付宝线下支付(收单)商家收银系统集成接口文档。 本方案进针对条形码收单方式。5 425浏览会员免费
- 项目管理实践案例大小:5MB本书《项目管理实践案例》第二版是项目管理者联盟《案例》栏目中的案例分析。本书中的案例及案例分析为项目管理者联盟网站版权所有。编者( 2004年3月27日通过美国项目管理协会PMP资格认证)在7年的IT系统集成及MA项目管理领域的经历了各种项目实践,也碰到了项目管理中的各种问题,很想将遇到的问题呈现给进入项目管理领域的PM。而项目管理者联盟《案例》栏目作为项目经理排忧解难的互动平台,众多项目管理高手对各位PM实际项目中碰到的问题提出最佳解决方案。本书谨将项目管理者联盟《案例》栏目中的案例进行了整理,为广大PM在项目管理实践中提供一点借鉴和参考。本书《项目管理实践案例》第二版是项目管理者联盟《案例》栏目中的案例分析。本书中的案例及案例分析为项目管理者联盟网站版权所有。编者( 2004年3月27日通过美国项目管理协会PMP资格认证)在7年的IT系统集成及MA项目管理领域的经历了各种项目实践,也碰到了项目管理中的各种问题,很想将遇到的问题呈现给进入项目管理领域的PM。而项目管理者联盟《案例》栏目作为项目经理排忧解难的互动平台,众多项目管理高手对各位PM实际项目中碰到的问题提出最佳解决方案。本书谨将项目管理者联盟《案例》栏目中的案例进行了整理,为广大PM在项目管理实践中提供一点借鉴和参考。5 0浏览会员免费
- RTI DDS的官方文档,主要讲述了RTIDDS的开发方法,配置方法等等。RTI DDS是目前DDS的实现中,最好的一个,使用RTIDDS做DCPS类型的应用时,非常快捷好用。5 517浏览会员免费
- 系统集成项目管理工程师考试,系统集成项目管理工程师培训模拟题答案。0 84浏览会员免费
- 本文整理自本人的技术博客中的Neutron系列文章。任何疑问、问题或者建议,可以给本人发邮件或者在我的博文中添加评论。 本系列文章基于 OpenStack Juno 版本,是在参考了大量网络资料的基础上加上自己的理解和实践而完成的。 OpenStack 在持续快速发展中,Neutron 更是这样,因此,本人会在将来不定期地对博文做修改,但是应该不会更新本文。4 1272浏览会员免费
- 中国软件评测中心系统集成项目管理工程师讲义 23页pdf4 115浏览会员免费
- 干货分享,docker入门书籍, the docker book.5 171浏览会员免费
- 有目录完整版的软件定义网络核心原理与应用实践5 342浏览会员免费
- KEPServerEX-V6中文说明书包含所有驱动配置以及窗口菜单应用讲解bacnet、opc、odbc、modbus、自定义协议等5 5942浏览会员免费
- This book will get you to the point where you have a running Docker environment and steer you towards good choices for a production environment.5 164浏览会员免费
- 支付宝线下支付(收单)商家收银系统集成接口文档。 本方案仅针对二维码收单方式。5 1271浏览会员免费
- 本书采用系统集成方法,系统地阐述IP网络的设计方法以及实施网络工程的过程管理方法。本书以设计“具有几台PC的小型局域网”,到“具有几十台到几百台PC的中型局域网”,到“覆盖一个楼宇的网络”,到“覆盖几个楼宇的网络”,到“覆盖几个园区的企业网”为主线,将网络系统的基本概念、设计和建设网络系统的基本方法和技术有机地结合起来,并在每章最后部分通过“网络工程案例教学”来综合应用前面所学的内容。本书在第2版的基础上进行了全面修订,内容先进,编排合理,便于教学和能力培养,适应高等院校本科生和研究生作为“网络工程设计”、“网络规划与设计”等课程的教材使用,也可供从事网络信息工程的技术人员参考。5 1523浏览会员免费
- 数据中心 信息技术 系统集成 GB 50174-2017数据中心设计规范3 3637浏览会员免费
- 《深入浅出DPDK》全书读书笔记.pdf4 2899浏览会员免费
- Kepware OPC Server与西门子WinCC通信配置教程手册(官方手册)3 4505浏览会员免费
- 一本介绍数据仓库ETL设计与开发的经典之作,是Kimball数据仓库序列之作中的一本,其它两本为维度建模指南和数据仓库生命周期。5 729浏览会员免费
- 系统集成项目管理工程师考试32小时通关,由名师薛大龙博士授课总结,对中级考试帮助很大5 1736浏览会员免费
- 《计算机网络系统集成技术基础与解决方案》从一线系统集成工程技术人员和管理人员的实际工作角度出发,介绍系统集成实际要掌握的四个方面的知识:系统集成基础、系统集成环境、前端(广域网)集成技术和用户端(设备系统)集成技术,主要包括网络系统集成技术与集成方案实例、网络数据通信和数据编码、国内系统集成的十大重要网络平台、网络传输介质、综合布线系统、网络管理方法、计算机网络信息安全、软件平台等。《计算机网络系统集成技术基础与解决方案》结构清晰,重点突出“集成”的各个实施环节,内容具体、实用,介绍实际的计算机网络系统集成过程中所需要的知识,具有代表性;面向实战,贴近工程实践,具有很强的实用性和可操作性。5 799浏览会员免费
- 本文档详细的描述了PPP-RTK定位相关的技术细节。适用于想了解相关定位方法的读者5 5151浏览会员免费
- 在工作中需要这方面的教程,发现网上没有比较全的,这里个人整理了一个傻瓜式的图文安装,REDHAT6Linux环境下WebSphere7.0安装图文手册,供大家分享5 251浏览会员免费
- 迈瑞BS系列全自动生化分析仪LIS协议接口手册,内含HL7和ASTM)1 3506浏览会员免费
- 信息产业部系统集成项目经理论文规范 前些时候公司在做系统集成认证时发的希望对大家有用0 98浏览会员免费
- 智能建筑弱电工程设计施工图集97X700.(上、下册)4 850浏览会员免费
- 小马老师资料; 2013年信息系统项目管理师考试学员笔记重点考点核心资料5 118浏览会员免费
- 启明星辰防火墙手册5 5149浏览会员免费
- 介绍移动通信原理,供广大通信专业人员学习4 1851浏览会员免费
- 系统集成项目管理工程师历年试题,后附考题答案~5 52浏览会员免费
- SECS GEM标准白皮书 有助于了解SECS GEM标准 适合初学者了解协议 有利快速开发(Cimetrix_SECS_GEM_Stds_WP_July_2016.pdf)3 2515浏览会员免费
- 2009年下半年系统集成项目管理工程师希赛保过班资料4 92浏览会员免费
- unifi设置教程UniFi AP,简称UAP,它是一个廋AP,可以实现无缝漫游,hot spot WEB认证,集中管理。 分室内和室外两种设备。新颖时尚的造型和强悍的性能在酒店.商场.大型公司等备受亲睐。 下面我将讲解下个功能设置方法:5 1896浏览会员免费
- 详细的讲了windows server里面相关的ipv6配置方法,是繁体的,内容还不错5 1302浏览会员免费
- 本适配器为多功能合一产品,涉及接口有SPI接口,I2C接口,UART接口,I2C与 UART接口,异步串口预留接口,打印并口3 4378浏览会员免费
- windows域控+证书服务器+IAS+Cisco AP 做radius认证 使无线用户使用证书通过Cisco AP经过证书认证与网络连接,非常好用,经过本人新自验证,windows 2003 域控,证书服务器+cisco 1242AP,用intel和dell无线网卡做过测试,均无问题5 468浏览会员免费
- SLM630 Series SLM630是一款LTE“五模十六频”无线通信模块。 SLM630采用通用工业标准接口,支持语音、短信、数据及GPS定位 SLM630低功耗、高灵敏度设计非常适合于各种无线通信应用 SLM630可应用在移动宽带接入、视频监控、安防、车载设备、M2M应用等。4 370浏览会员免费
- OpenOPC使用教程,详细描述了如何通过python等命令方式操纵OPC Server4 999浏览会员免费
- 中国移动EPON设备测试规范0 62浏览会员免费
- 美国国防部建模与仿真办公室(DefenseModelingSimulationOffice,DMSO) 开发的RTI 1.3NGV5的程序员手册,详细介绍了该软件的编程接口,可供HLA仿真开发人学习参考。5 803浏览会员免费
- CCIE Security V4 201303逻辑拓扑,v4版本解法,过人文档4 93浏览会员免费
- “云热点”帮助餐饮、休闲、娱乐等类型的商家建立属于自己的WiFi认证页面,效果媲美星巴克及麦当劳的WiFi认证服务,有利于商家提升自己的品牌形象,提高顾客消费的满意度。并通过该WiFi认证页面的广告、手机验证、微博登录及消费联盟等功能,极大地丰富了商家的营销渠道。4 199浏览会员免费
- Siemens OPC UA样例 使用说明 ,西门子数控 CNC 828D 840D sl5 2118浏览会员免费
- 与系统集成项目管理工程师教程配套资料,按照考试大纲编写有精讲点,有习题,很好的教材0 97浏览会员免费
- 系统集成项目管理工程师考试模拟题,培训辅导教材0 40浏览会员免费
- Kepware OPC Server与InTouch通信配置教程,不需要FSGateway(可用也可以不用)5 2169浏览会员免费
- CSDN上传无法设置免积分 , 下面放出原版git地址 , 可以免费下载 . 作者原版地址 : https://github.com/nightycd/Tridium_N4_Dev_Help_SimplifiedChinese5 2950浏览会员免费
- ERP+系统全面教程ERP+系统全面教程ERP+系统全面教程ERP+系统全面教程0 87浏览会员免费
- Asterisk FreePBX Elastix配置及技术解答。转载的,希望帮到更多的人。5 173浏览会员免费
- 使用Kepserver 作为OPC UA服务器的配置以及 Kepserver作为OPC UA 客户端的设置,傻瓜式教程,一学就会0 3474浏览会员免费
- 基恩士SR-1000扫码器中文配置使用手册,与西门子S7-300CPU实测以太网通讯扫码可用,实测可用0 1w+浏览会员免费
- 数据中心基础设施监控系统技术白皮书 国家标准组织 数据中心工作组 编制4 546浏览会员免费
- SR8201F是国内第一款MII/RMII接口的网络PHY芯片,采用QFN32封装,助力芯片国产化2 2967浏览会员免费
- openflow switch spec v1.5.1 (english version)5 123浏览会员免费
- 与系统集成项目管理工程师教程配套资料,按照考试大纲编写有精讲点,有习题,很好的教材3 89浏览会员免费
- 最新vsphere5.0版本区别。自己手动整理,谨防假冒3 1623浏览会员免费
- 综合安防管理平台安装部署手册,详细介绍了如何安装iSecure 如何每一步操作都很清晰,如果有任何问题都可以问我,我装了好多遍5 4914浏览会员免费
- IP视频监控百事通工具系列,由安防行业富实证的网络团队执笔,将高深的网络理论通俗化为科普范本,使得复杂的网络知识不再是IP监控技术发展的障碍。本书结合若干小故事+真实问题,从监控业务应用者的视角,以单点监控、远程监控、连锁监控、行业监控、平安城市建设等典型组网案例为线索,按需求提出问题,再讲解基本原理,并提供解决方案的方式,逐个剖析IP监控所涉及的相关原理和知识点。监控+网络一本就够,让你10天从入门到精通IP监控知识。5 395浏览会员免费
- CentOS 操作手册 CentOS_5_文件与目录操作命令全集4 202浏览会员免费