Cloudera Hadoop大数据平台实战指南
作者:宋立桓、陈建平
出版社:清华大学出版社
ISBN:9787302517535
VIP会员免费
(仅需0.8元/天)
¥ 38.35
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 评分:
前 言 第一部分 环境准备 第1章 源代码环境准备 1.1 什么是Hadoop 1.1.1 Hadoop简史 1.1.2 Hadoop的优势 1.1.3 Hadoop生态系统 1.2 准备源代码阅读环境 1.2.1 安装与配置JDK 1.2.2 安装Eclipse 1.2.3 安装辅助工具Ant 1.2.4 安装类UNIX Shell环境Cygwin 1.3 准备Hadoop源代码 1.3.1 下载Hadoop 1.3.2 创建Eclipse项目 1.3.3 Hadoop源代码组织 1.4 小结 第二部分 Common的实现 第2章 Hadoop配置信息处理 2.1 配置文件简介 2.1.1 Windows操作系统的配置文件 2.1.2 Java配置文件 2.2 Hadoop Configuration详解 2.2.1 Hadoop配置文件的格式 2.2.2 Configuration的成员变量 2.2.3 资源加载 2.2.4 使用get*和set*访问设置配置项 2.3 Configurable接口 2.4 小结 第3章 序列化与压缩 3.1 序列化 3.1.1 Java内建序列化机制 3.1.2 Hadoop序列化机制 3.1.3 Hadoop序列化机制的特征 3.1.4 Hadoop Writable机制 3.1.5 典型的Writable类详解 3.1.6 Hadoop序列化框架 3.2 压缩 3.2.1 Hadoop压缩简介 3.2.2 Hadoop压缩API应用实例 3.2.3 Hadoop压缩框架 3.2.4 Java本地方法 3.2.5 支持Snappy压缩 3.3 小结 第4章 Hadoop远程过程调用 4.1 远程过程调用基础知识 4.1.1 RPC原理 4.1.2 RPC机制的实现 4.1.3 Java远程方法调用 4.2 Java动态代理 4.2.1 创建代理接口 4.2.2 调用转发 4.2.3 动态代理实例 4.3 Java NIO 4.3.1 Java基本套接字 4.3.2 Java NIO基础 4.3.3 Java NIO实例:回显服务器 4.4 Hadoop中的远程过程调用 4.4.1 利用Hadoop IPC构建简单的分布式系统 4.4.2 Hadoop IPC的代码结构 4.5 Hadoop IPC连接相关过程 4.5.1 IPC连接成员变量 4.5.2 建立IPC连接 4.5.3 数据分帧和读写 4.5.4 维护IPC连接 4.5.5 关闭IPC连接 4.6 Hadoop IPC方法调用相关过程 4.6.1 Java接口与接口体 4.6.2 IPC方法调用成员变量 4.6.3 客户端方法调用过程 4.6.4 服务器端方法调用过程 4.7 Hadoop IPC上的其他辅助过程 4.7.1 RPC.getProxy()和RPC.stopProxy() 4.7.2 RPC.getServer()和Server的启停 4.8 小结 第5章 Hadoop文件系统 5.1 文件系统 5.1.1 文件系统的用户界面 5.1.2 文件系统的实现 5.1.3 文件系统的保护控制 5.2 Linux文件系统 5.2.1 Linux本地文件系统 5.2.2 虚拟文件系统 5.2.3 Linux文件保护机制 5.2.4 Linux文件系统API 5.3 分布式文件系统 5.3.1 分布式文件系统的特性 5.3.2 基本NFS体系结构 5.3.3 NFS支持的文件操作 5.4 Java文件系统 5.4.1 Java文件系统API 5.4.2 URI和URL 5.4.3 Java输入输出流 5.4.4 随机存取文件 5.5 Hadoop抽象文件系统 5.5.1 Hadoop文件系统API 5.5.2 Hadoop输入输出流 5.5.3 Hadoop文件系统中的权限 5.5.4 抽象文件系统中的静态方法 5.5.5 Hadoop文件系统中的协议处理器 5.6 Hadoop具体文件系统 5.6.1 FileSystem层次结构 5.6.2 RawLocalFileSystem的实现 5.6.3 ChecksumFileSystem的实现 5.6.4 RawInMemoryFileSystem的实现 5.7 小结 第三部分 Hadoop分布式文件系统 第6章 HDFS概述 6.1 初识HDFS 6.1.1 HDFS主要特性 6.1.2 HDFS体系结构 6.1.3 HDFS源代码结构 6.2 基于远程过程调用的接口 6.2.1 与客户端相关的接口 6.2.2 HDFS各服务器间的接口 6.3 非远程过程调用接口 6.3.1 数据节点上的非IPC接口 6.3.2 名字节点和第二名字节点上的非IPC接口 6.4 HDFS主要流程 6.4.1 客户端到名字节点的文件与目录操作 6.4.2 客户端读文件 6.4.3 客户端写文件 6.4.4 数据节点的启动和心跳 6.4.5 第二名字节点合并元数据 6.5 小结 第7章 数据节点实现 7.1 数据块存储 7.1.1 数据节点的磁盘目录文件结构 7.1.2 数据节点存储的实现 7.1.3 数据节点升级 7.1.4 文件系统数据集的工作机制 7.2 流式接口的实现 7.2.1 DataXceiverServer和DataXceiver 7.2.2 读数据 7.2.3 写数据 7.2.4 数据块替换、数据块拷贝和读数据块检验信息 7.3 作为整体的数据节点 7.3.1 数据节点和名字节点的交互 7.3.2 数据块扫描器 7.3.3 数据节点的启停 7.4 小结 第8章 名字节点实现 8.1 文件系统的目录树 8.1.1 从i-node到INode 8.1.2 命名空间镜像和编辑日志 8.1.3 第二名字节点 8.1.4 FSDirectory的实现 8.2 数据块和数据节点管理 8.2.1 数据结构 8.2.2 数据节点管理 8.2.3 数据块管理 8.3 远程接口ClientProtocol的实现 8.3.1 文件和目录相关事务 8.3.2 读数据使用的方法 8.3.3 写数据使用的方法 8.3.4 工具dfsadmin依赖的方法 8.4 名字节点的启动和停止 8.4.1 安全模式 8.4.2 名字节点的启动 8.4.3 名字节点的停止 8.5 小结 第9章 HDFS客户端 9.1 认识DFSClient 9.1.1 DFSClient的构造和关闭 9.1.2 文件和目录、系统管理相关事务 9.1.3 删除HDFS文件目录的流程 9.2 输入流 9.2.1 读数据前的准备:打开文件 9.2.2 读数据 9.2.3 关闭输入流 9.2.4 读取HDFS文件数据的流程 9.3 输出流 9.3.1 写数据前的准备:创建文件 9.3.2 写数据:数据流管道的建立 9.3.3 写数据:数据包的发送 9.3.4 写数据:数据流管道出错处理 9.3.5 写数据:租约更新 9.3.6 写数据:DFSOutputStream.sync()的作用 9.3.7 关闭输出流 9.3.8 向HDFS文件写入数据的流程 9.4 DistributedFileSystem的实现 9.5 HDFS常用工具 9.5.1 FsShell 9.5.2 DFSAdmin 9.6 小结
上传时间:2017-12 大小:17.57MB
- 56.36MB
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.pdf
2018-01-31Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理.pdf
- 56.26MB
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理
2016-10-18Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理
- 132KB
HDFS架构和实现机制简介
2021-01-07本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。 HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个 HDFS 集群还包括多个 DataNode,用来存储数据。HDFS 的整体结构如图 1 所示。 图 1 HDFS整体架构 HDFS 会对外暴露一个文件系统命名空间,并允许用户数据以文件的形式进行存储。在内部,一个文件被分成多个块并且这些块被存储在一组 DataNode 上。 1)NameNode 文件的元数
- 20.20MB
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书).mobi
2019-07-05Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
- 10.70MB
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》
2017-07-22《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:...
- 57.14MB
Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实现原理
2018-07-01Hadoop技术内幕-深入解析HADOOP COMMON和HDFS架构设计与实现原理
- 45.91MB
Hadoop技术内幕 深入理解MapReduce架构设计与实现原理 扫描版 带简单书签
2019-03-21《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:...
- 62.26MB
hadoop技术内幕 深入解析mapreduce架构设计与实现原理.(董西成).全本
2015-06-01“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者...
- 1.20MB
hadoop-common2.2.0和2.7.1版本
2018-10-15hadoop-common-2.2.0-bin-master.zip hadoop-common-2.7.1-bin-master.zip 两个版本组合包,亲测可用
- 1.20MB
hadoop-common
2017-11-16在win上运行hadoop上使用到的库文件等,包含hadoop-common2.2.0和hadoop-common2.7.1两个版本
- 3.28MB
hadoop-common-2.7.2.jar
2017-08-29hadoop-common-2.7.2.jar
- 3.31MB
hadoop-common-2.7.3.jar
2018-11-08hadoop-common-2.7.3.jar 下载
- 191.6MB
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计
2023-10-30项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。
- 685.0MB
hadoop-3.3.4.tar.gz + winutils 安装环境
2023-08-03【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils ) https://hanshuliang.blog.csdn.net/article/details/132045605 一、下载 Hadoop 二、解压 Hadoop 三、设置 Hadoop 环境变量 四、配置 Hadoop 环境脚本 五、安装 winutils 六、重启电脑 七、验证 Hadoop 安装效果
- 1.49MB
基于Hadoop的电影影评数据分析
2023-04-04是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
- 1.65MB
基于大数据的音乐推荐系统(适合本科毕设)
2023-02-02主要是用于大家对于大数据的基本处理,适合大学生本科毕设的参考。
- 191.6MB
基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载)
2023-10-21基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载) 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。例如,
- 21.24MB
适用于hadoop 3.3.5 3.3.6版本的winutils
2023-10-08winutils文件合集,Hadoop3.3.5以及3.3.6可用 winutils.exe是在windows系统上安装hadoop时所需要的winutils文件,内附多个版本,支持 hadoop-3.3.5 hadoop-3.3.6
- 1.26MB
数据科学导论实验报告 实验1:常用Linux操作和 Hadoop操作
2023-04-30数据科学导论 实验1:常用Linux操作和 Hadoop操作 1、Linux虚拟机安装和操作 2、Hadoop安装和操作 1)创建Hadoop用户 2)SSH登录权限设置 3)安装Java环境 4)单机安装配置 5)伪分布式安装配置
- 177.69MB
淘宝用户行为数据集
2019-01-053182257条数据,可做推荐系统,数据分析 它包含字段(id, uid,age,gender,item_id, behavior_type, item_category, date, province) //1.浏览、2.收藏、3.加购物车 4.购买 7.统计各省的前十热门关注产品(浏览+收藏+添加购物车+购买总量最多前10的产品) 8.统计各省的前十热门购买产品(销售最多前10的产品) 9.统计各省销售最好的产品类别前10(销售最多前10的产品类别) 10.统计各省男女用户数量(gender 0:男 1:女 2:未知)
- 7.75MB
中文官方教程_tableau_prep.pdf
2021-04-13数据分析,数据挖掘,ETL处理工程师等。
- 322.41MB
hadoop-3.1.3.tar.gz
2022-01-24[免费]hadoop-3.1.3官网的包 你们CSDN上的这些人是有多不要脸,这玩意还要积分,怎么滴,你们写出来的hadoop?
- 19.46MB
数据中台建设方案.docx
2021-08-29数据中台建设方案,word版本,可以用于各类技术方案编写,投标。
- 15.24MB
Hadoop 之 winutils
2022-01-21在windows上运行Hadoop相关程序时报错问题解决(比如Spark) 如果需要积分或者校验码,可以去百度网盘中下载,地址如下: 链接:https://pan.baidu.com/s/1RVpmbtjuQL3lbAEYfjr2EA 提取码:1234
- 21.94MB
winutils-master.zip
2021-12-24hadoop各版本hadoop.dll和winutils
- 10KB
cdh6需要的allkeys.asc
2022-04-27在安装cdh6.3.2时提示找不到allkeys.asc的问题解决办法,解压出来的文件放到/var/www/html/cm6下,此目录名cm6称根据你实际配置修改即可。此文件适合cdh6所有版本。提供免费下载,欢迎下载! 把解压出来的文件allkeys.asc放到你自己目录即可
- 5.9MB
企业数据中台建设.pdf
2020-08-12DT 时代,很多公司包括传统型企业都纷纷加入到数字化转型的队伍中来,数据的价值变现显得越来越重要。那么如何挖掘更多的企业数据价值呢,数据中台就是目前的一个最主要手段,数据中台改变了企业原来利用数据的形式(传统数仓、BI),通过业务数据化、数据资产化、资产服务化、服务业务化的四化良性高效闭环,加速了从数据资源到数据资产到价值变现的过程,提高了企业的业务响应力、创新力、价值力。通过降本增效,数据化智能运营,打造出数据驱动的智能化企业,从而更高效的为企业创造更多的价值。 本篇文章将从以下几个方面介绍整个数据中台建设的体系方案: 1. 为什么需要数据中台 2. 哪些企业适合做数据中台 3. 数据中台建设有哪些方法论和策略 4. 数据中台核心内容的建设方案 5. 业界一些数据中台建设分享资料