从零开始学Hadoop大数据分析(视频教学版)
电子书推荐
-
Hadoop权威指南 第四版 原版 评分:
第1章 初识Hadoop 1.1 数据!数据! 1.2 数据的存储与分析 1.3 相较于其他系统的优势 1.3.1 关系型数据库管理系统 1.3.2 网格计算 1.3.3 志愿计算 1.4 Hadoop发展简史 1.5 Apache Hadoop和Hadoop生态系统 1.6 Hadoop的发行版本 1.6.1 本书包含的内容 1.6.2 兼容性 第2章 关于MapReduce 2.1 气象数据集 2.2 使用Unix工具来分析数据 2.3 使用Hadoop来分析数据 2.3.1 map和reduce 2.3.2 Java MapReduce 2.4 横向扩展 2.4.1 数据流 2.4.2 combiner函数 2.4.3 运行分布式的MapReduce作业 2.5 Hadoop Streaming 2.5.1 Ruby版本 2.5.2 Python版本 2.6 Hadoop Pipes 第3章 Hadoop分布式文件系统 3.1 HDFS的设计 3.2 HDFS的概念 3.2.1 数据块 3.2.2 namenode和datanode 3.2.3 联邦HDFS 3.2.4 HDFS的高可用性 3.3 命令行接口 3.4 Hadoop文件系统 3.5 Java接口 3.5.1 从Hadoop URL读取数据 3.5.2 通过FileSystem API读取数据 3.5.3 写入数据 3.5.4 目录 3.5.5 查询文件系统 3.5.6 删除数据 3.6 数据流 3.6.1 剖析文件读取 3.6.2 剖析文件写入 3.6.3 一致模型 3.7 通过Flume和Sqoop导入数据 3.8 通过distcp并行复制 3.9 Hadoop存档 3.9.1 使用Hadoop存档工具 3.9.2 不足 第4章 Hadoop的I/O操作 4.1 数据完整性 4.1.1 HDFS的数据完整性 4.1.2 LocalFileSystem 4.1.3 ChecksumFileSystem 4.2 压缩 4.2.1 codec 4.2.2 压缩和输入分片 4.2.3 在MapReduce中使用压缩 4.3 序列化 4.3.1 Writable接口 4.3.2 Writable类 4.3.3 实现定制的Writable集合 4.3 序列化框架 4.4 Avro 4.4.1 Avro数据类型和模式 4.4.2 内存中的序列化和反序列化 4.4.3 Avro数据文件 4.4.4 互操作性 4.4.5 模式的解析 4.4.6 排列顺序 4.4.7 关于Avro MapReduce 4.4.8 使用Avro MapReduce进行排序 4.4.9 其他语言的Avro MapReduce 4.5 基于文件的数据结构 4.5.1 关于SequenceFile 4.5.2 关于MapFile 第5章 MapReduce应用开发 5.1 用于配置的API 5.1.1 资源合并 5.1.2 可变的扩展 5.2 配置开发环境 5.2.1 管理配置 5.2.2 辅助类GenericOptionsParser,Tool和ToolRunner 5.3 用MRUnit来写单元测试 5.3.1 关于Mapper 5.3.2 关于Reducer 5.4 本地运行测试数据 5.4.1 在本地作业运行器上运行作业 5.4.2 测试驱动程序 5.5 在集群上运行 5.5.1 打包作业 5.5.2 启动作业 5.5.3 MapReduce的Web界面 5.5.4 获取结果 5.5.5 作业调试 5.5.6 Hadoop日志 5.5.7 远程调试 5.6 作业调优 5.7 MapReduce的工作流 5.7.1 将问题分解成MapReduce作业 5.7.2 关于JobControl 5.7.3 关于Apache Oozie 第6章 MapReduce的工作机制 6.1 剖析MapReduce作业运行机制 6.1.1 经典的MapReduce (MapReduce 1) 6.1.2 YARN (MapReduce 2) 6.2 失败 6.2.1 经典MapReduce中的失败 6.2.2 YARN中的失败 6.3 作业的调度 6.3.1 公平调度器 6.3.2 容量调度器 6.4 shuffle和排序 6.4.1 map端 6.4.2 reduce端 6.4.3 配置调优 6.5 任务的执行 6.5.1 任务执行环境 6.5.2 推测执行 6.5.3 关于OutputCommitters 6.5.4 任务JVM重用 6.5.5 跳过坏记录 第7章 MapReduce的类型与格式 7.1 MapReduce的类型 7.1.1 默认的MapReduce作业 7.1.2 默认的Streaming作业 7.2 输入格式 7.2.1 输入分片与记录 7.2.2 文本输入 7.2.3 二进制输入 7.2.4 多个输入 7.2.5 数据库输入(和输出) 7.3 输出格式 7.3.1 文本输出 7.3.2 二进制输出 7.3.3 多个输出 7.3.4 延迟输出 7.3.5 数据库输出 第8章 MapReduce的特性 8.1 计数器 8.1.1 内置计数器 8.1.2 用户定义的Java计数器 8.1.3 用户定义的Streaming计数器 8.2 排序 8.2.1 准备 8.2.2 部分排序 8.2.3 全排序 8.2.4 辅助排序 8.3 连接 8.3.1 map端连接 8.3.2 reduce端连接 8.4 边数据分布 8.4.1 利用JobConf来配置作业 8.4.2 分布式缓存 8.5 MapReduce库类 第9章 构建Hadoop集群 9.1 集群规范 9.2 集群的构建和安装 9.2.1 安装Java 9.2.2 创建Hadoop用户 9.2.3 安装Hadoop 9.2.4 测试安装 9.3 SSH配置 9.4 Hadoop配置 9.4.1 配置管理 9.4.2 环境设置 9.4.3 Hadoop守护进程的关键属性 9.4.4 Hadoop守护进程的地址和端口 9.4.5 Hadoop的其他属性 9.4.6 创建用户帐号 9.5 YARN配置 9.5.1 YARN守护进程的重要属性 9.5.2 YARN守护进程的地址和端口 9.6 安全性 9.6.1 Kerberos和Hadoop 9.6.2 委托令牌 9.6.3 其他安全性改进 9.7 利用基准评测程序测试Hadoop集群 9.7.1 Hadoop基准评测程序 9.7.2 用户作业 9.8 云端的Hadoop 第10章 管理Hadoop 10.1 HDFS 10.1.1 永久性数据结构 10.1.2 安全模式 10.1.3 日志审计 10.1.4 工具 10.2 监控 10.2.1 日志 10.2.2 度量 10.2.3 Java管理扩展(JMX) 10.3 维护 10.3.1 日常管理过程 10.3.2 委任和解除节点 10.3.3 升级 第11章 关于Pig 11.1 安装与运行Pig 11.1.1 执行类型 11.1.2 运行Pig程序 11.1.3 Grunt 11.1.4 Pig Latin编辑器 11.2 示例 11.3 与数据库进行比较 11.4 Pig Latin 11.4.1 结构 11.4.2 语句 11.4.3 表达式 11.4.4 类型 11.4.5 模式 11.4.6 函数 11.4.7 宏 11.5 用户自定义函数 11.5.1 过滤UDF 11.5.2 计算UDF 11.5.3 加载UDF 11.6 数据处理操作 11.6.1 数据的加载和存储 11.6.2 数据的过滤 11.6.3 数据的分组与连接 11.6.4 数据的排序 11.6.5 数据的组合和切分 11.7 Pig实战 11.7.1 并行处理 11.7.2 参数代换 第12章 关于Hive 12.1 安装Hive 12.2 示例 12.3 运行Hive 12.3.1 配置Hive 12.3.2 Hive服务 12.3.3 Metastore 12.4 Hive与传统数据库相比 12.4.1 读时模式vs.写时模式 12.4.2 更新、事务和索引 12.5 HiveQL 12.5.1 数据类型 12.5.2 操作与函数 12.6 表 12.6.1 托管表和外部表 12.6.2 分区和桶 12.6.3 存储格式 12.6.4 导入数据 12.6.5 表的修改 12.6.6 表的丢弃 12.7 查询数据 12.7.1 排序和聚集 12.7.2 MapReduce脚本 12.7.3 连接 12.7.4 子查询 12.7.5 视图 12.8 用户定义函数 12.8.1 写UDF 12.8.2 写UDAF 第13章 关于HBase 13.1 HBase基础 13.2 概念 13.3.1 数据模型的"旋风之旅" 13.3.2 实现 13.3 安装 13.4 客户端 13.4.1 Java 13.4.2 Avro、REST和Thrift 13.5 示例 13.5.1 模式
上传时间:2019-03 大小:11.64MB
- 4.57MB
hadoop权威指南第四版英文原版
2018-05-20对应上一个hadoop权威指南第四版中文版的英文原版,这是第二个资源,第三个资源是对应这本书的源码,但也是作为一个独立的资源上传的
- 195.60MB
hadoop权威指南第四版资料合集
2018-11-20hadoop权威指南第四版英文原版、中文版以及配套的代码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与以前版本比较增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节。适合于Hadoop 初学者。
- 195.45MB
hadoop权威指南合集第四版
2019-10-30hadoop权威指南第四版,资源包含:英文原版、中文版以及配套的代码,适合于Hadoop 初学者。
- 192.57MB
Hadoop权威指南第四版中文版+英文原版
2018-04-13Hadoop权威指南第四版中文版+英文原版,中文版为2017年7月出版。高清,带书签。
- 195.67MB
hadoop权威指南资料合集第四版-z.zip
2019-06-17hadoop权威指南第四版英文原版、中文版以及配套的代码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与以前版本比较增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节。适合于Hadoop 初学者。
- 192.48MB
hadoop权威指南第四版(中文版-英文版)高清
2018-06-24hadoop权威指南第四版英文原版、中文版内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与以前版本比较增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节。适合于Hadoop 初学者。
- 187.81MB
最新 Hadoop权威指南 第四版 中文(绝非水军)
2018-06-30最新 Hadoop权威指南 第四版 中文(绝非水军),原版书卖的太贵了,并且错别字连篇,质量低下。这样的书商就应该盗版伺候。
- 195.45MB
hadoop权威指南第四版资料(最新版&2019;)
2019-04-03hadoop权威指南第四版英文原版、中文版以及配套的代码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与以前版本比较增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节。适合于Hadoop 初学者
- 8.97MB
Hadoop权威指南第四版pdf 英文原版高清
2018-04-01英文原版PDF/高清/完整版/去水印 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 [1] Hadoop实现了一...
- 187.86MB
hadoop权威指南第四版中文版
2019-04-17hadoop权威指南第四版中文版 高清版 有目录 但是好像还是没原版那么完美 使用学习是够了
- 9.1MB
Hadoop权威指南第四版(英文源码)
2018-05-06Hadoop权威指南英文版,第四版,看英文原版防止造成一些中文上翻译的一些差异
- 10.45MB
Hadoop权威指南
2018-02-09Hadoop权威指南第四版,原版,高清,不可多得的第一手学习资源。欢迎大家下载。 分数不多,大家支持下。谢谢
- 105.2MB
Hadoop权威指南.第四版.中英文.源码
2018-12-29hadoop权威指南第四版英文原版、中文版以及配套的代码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与以前版本比较增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节。适合于Hadoop 初学者
- 191.6MB
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计
2023-10-30项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。
- 685.0MB
hadoop-3.3.4.tar.gz + winutils 安装环境
2023-08-03【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils ) https://hanshuliang.blog.csdn.net/article/details/132045605 一、下载 Hadoop 二、解压 Hadoop 三、设置 Hadoop 环境变量 四、配置 Hadoop 环境脚本 五、安装 winutils 六、重启电脑 七、验证 Hadoop 安装效果
- 1.49MB
基于Hadoop的电影影评数据分析
2023-04-04是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
- 1.65MB
基于大数据的音乐推荐系统(适合本科毕设)
2023-02-02主要是用于大家对于大数据的基本处理,适合大学生本科毕设的参考。
- 191.6MB
基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载)
2023-10-21基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载) 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。例如,
- 21.24MB
适用于hadoop 3.3.5 3.3.6版本的winutils
2023-10-08winutils文件合集,Hadoop3.3.5以及3.3.6可用 winutils.exe是在windows系统上安装hadoop时所需要的winutils文件,内附多个版本,支持 hadoop-3.3.5 hadoop-3.3.6
- 1.26MB
数据科学导论实验报告 实验1:常用Linux操作和 Hadoop操作
2023-04-30数据科学导论 实验1:常用Linux操作和 Hadoop操作 1、Linux虚拟机安装和操作 2、Hadoop安装和操作 1)创建Hadoop用户 2)SSH登录权限设置 3)安装Java环境 4)单机安装配置 5)伪分布式安装配置
- 177.69MB
淘宝用户行为数据集
2019-01-053182257条数据,可做推荐系统,数据分析 它包含字段(id, uid,age,gender,item_id, behavior_type, item_category, date, province) //1.浏览、2.收藏、3.加购物车 4.购买 7.统计各省的前十热门关注产品(浏览+收藏+添加购物车+购买总量最多前10的产品) 8.统计各省的前十热门购买产品(销售最多前10的产品) 9.统计各省销售最好的产品类别前10(销售最多前10的产品类别) 10.统计各省男女用户数量(gender 0:男 1:女 2:未知)
- 7.75MB
中文官方教程_tableau_prep.pdf
2021-04-13数据分析,数据挖掘,ETL处理工程师等。
- 322.41MB
hadoop-3.1.3.tar.gz
2022-01-24[免费]hadoop-3.1.3官网的包 你们CSDN上的这些人是有多不要脸,这玩意还要积分,怎么滴,你们写出来的hadoop?
- 19.46MB
数据中台建设方案.docx
2021-08-29数据中台建设方案,word版本,可以用于各类技术方案编写,投标。
- 15.24MB
Hadoop 之 winutils
2022-01-21在windows上运行Hadoop相关程序时报错问题解决(比如Spark) 如果需要积分或者校验码,可以去百度网盘中下载,地址如下: 链接:https://pan.baidu.com/s/1RVpmbtjuQL3lbAEYfjr2EA 提取码:1234
- 21.94MB
winutils-master.zip
2021-12-24hadoop各版本hadoop.dll和winutils
- 10KB
cdh6需要的allkeys.asc
2022-04-27在安装cdh6.3.2时提示找不到allkeys.asc的问题解决办法,解压出来的文件放到/var/www/html/cm6下,此目录名cm6称根据你实际配置修改即可。此文件适合cdh6所有版本。提供免费下载,欢迎下载! 把解压出来的文件allkeys.asc放到你自己目录即可
- 5.9MB
企业数据中台建设.pdf
2020-08-12DT 时代,很多公司包括传统型企业都纷纷加入到数字化转型的队伍中来,数据的价值变现显得越来越重要。那么如何挖掘更多的企业数据价值呢,数据中台就是目前的一个最主要手段,数据中台改变了企业原来利用数据的形式(传统数仓、BI),通过业务数据化、数据资产化、资产服务化、服务业务化的四化良性高效闭环,加速了从数据资源到数据资产到价值变现的过程,提高了企业的业务响应力、创新力、价值力。通过降本增效,数据化智能运营,打造出数据驱动的智能化企业,从而更高效的为企业创造更多的价值。 本篇文章将从以下几个方面介绍整个数据中台建设的体系方案: 1. 为什么需要数据中台 2. 哪些企业适合做数据中台 3. 数据中台建设有哪些方法论和策略 4. 数据中台核心内容的建设方案 5. 业界一些数据中台建设分享资料
- 23.38MB
牛客大数据面试题集锦+答案,共523道,46W+字。大厂必备
2022-09-04大数据面试题V3.0完成了。共523道题,679页,46w+字,来源于牛客870+篇面经。 主要分为以下几部分: Hadoop面试题:100道 Zookeeper面试题:21道 Hive面试题:47道 Flume面试题:11道 Kafka面试题:59到 HBase面试题:36道 Spark面试题:97道 Flink面试题:40道 数仓面试题:25道 综合面试题:43道 数据库(MySQL)面试题:44道 面试题总结是一个长期工作,面试不停,这份面试题总结就不会停。以后会慢慢把Java相关的面试题、计算机网络等都加进来,其实这不仅仅是一份面试题,更是一份面试参考,让你熟悉面试题各种提问情况,当然,项目部分,就只能看自己了,毕竟每个人简历、实习、项目等都不一样。面试题总结是一个长期工作,面试不停,这份面试题总结就不会停。以后会慢慢把Java相关的面试题、计算机网络等都加进来,其实这不仅仅是一份面试题,更是一份面试参考,让你熟悉面试题各种提问情况,当然,项目部分,就只能看自己了,毕竟每个人简历、实习、项目等都不一样。面试题总结是一个长期工作,面试不停,这份面试题总结就不会停。