VIP会员
作者:CSDN
出版社:CSDN《程序员》
ISBN:1111111111117
VIP会员免费
(仅需0.8元/天)
¥ 40000.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
实战Hadop:开启通向云计算的捷径 评分:
第1 章 神奇的大象——Hadoop 1.1 初识神象 2 1.2 Hadoop 初体验 4 1.2.1 了解Hadoop 的构架 4 1.2.2 查看Hadoop 活动 7 1.3 Hadoop 族群 10 1.4 Hadoop 安装 11 1.4.1 在Linux 系统中安装Hadoop 11 1.4.2 在Windows 系统中安装Hadoop 21 1.4.3 站在象背上说“hello” 29 1.4.4 Eclipse 下的Hadoop 应用开发 30 参考文献 34 第2 章 HDFS——不怕故障的海量存储 2.1 开源的GFS——HDFS 36 2.1.1 设计前提与目标 36 2.1.2 HDFS 体系结构 37 2.1.3 保障HDFS 可靠性措施 39 2.2 HDFS 常用操作 42 2.2.1 HDFS 下的文件操作 42 2.2.2 管理与更新 45 2.3 HDFS API 之旅 48 2.4 实战:用HDFS 存储海量视频数据 55 2.4.1 应用场景 55 2.4.2 设计实现 55 参考文献 58 第3 章 分久必合——MapReduce 3.1 MapReduce 基础 60 3.1.1 MapReduce 编程模型 60 3.1.2 MapReduce 的集群行为 62 3.2 样例分析:单词计数 64 3.2.1 WordCount 源码分析 64 3.2.2 WordCount 处理过程 67 3.3 MapReduce,你够了解吗 69 3.3.1 没有map、reduce 的MapReduce 69 3.3.2 多少个Reducers 最佳 72 3.4 实战:倒排索引 74 3.4.1 倒排索引简介 74 3.4.2 分析与设计 76 3.4.3 倒排索引完整源码 79 参考文献 83 第4 章 一张无限大的表——HBase 4.1 HBase 简介 85 4.1.1 逻辑模型 85 4.1.2 物理模型 86 4.1.3 Region 服务器 87 4.1.4 主服务器 89 4.1.5 元数据表 89 4.2 HBase 入门 91 4.2.1 HBase 的安装配置 91 4.2.2 HBase 用户界面 97 4.3 HBase 操作演练 100 4.3.1 基本shell 操作 100 4.3.2 基本API 使用 103 4.4 实战:使用MapReduce 构建HBase 索引 105 4.4.1 索引表蓝图 105 4.4.2 HBase 和MapReduce 107 4.4.3 实现索引 108 参考文献 112 第5 章 更上一层楼——MapReduce 进阶 5.1 简介 114 5.2 复合键值对的使用 115 5.2.1 把小的键值对合并成大的键值对 115 5.2.2 巧用复合键让系统完成排序 117 5.3 用户定制数据类型 123 5.3.1 Hadoop 内置的数据类型 123 5.3.2 用户自定义数据类型的实现 124 5.4 用户定制输入/输出格式 126 5.4.1 Hadoop 内置的数据输入格式和RecordReader 126 5.4.2 用户定制数据输入格式与RecordReader 127 5.4.3 Hadoop 内置的数据输出格式与RecordWriter 133 5.4.4 用户定制数据输出格式与RecordWriter 134 5.4.5 通过定制数据输出格式实现多集合文件输出 134 5.5 用户定制Partitioner 和Combiner 137 5.5.1 用户定制Partitioner 137 5.5.2 用户定制Combiner 139 5.6 组合式MapReduce 计算作业 141 5.6.1 迭代MapReduce 计算任务 141 5.6.2 顺序组合式MapReduce 作业的执行 142 5.6.3 具有复杂依赖关系的组合式MapReduce 作业的执行 144 5.6.4 MapReduce 前处理和后处理步骤的链式执行 145 5.7 多数据源的连接 148 5.7.1 基本问题数据示例 149 5.7.2 用DataJoin 类实现Reduce 端连接 150 5.7.3 用全局文件复制方法实现Map 端连接 158 5.7.4 带Map 端过滤的Reduce 端连接 162 5.7.5 多数据源连接解决方法的限制 162 5.8 全局参数/数据文件的传递与使用 163 5.8.1 全局作业参数的传递 163 5.8.2 查询全局MapReduce 作业属性 166 5.8.3 全局数据文件的传递 167 5.9 关系数据库的连接与访问 169 5.9.1 从数据库中输入数据 169 5.9.2 向数据库中输出计算结果 170 参考文献 172 第6 章 Hive——飞进数据仓库的小蜜蜂 6.1 Hive 的组成 174 6.2 搭建蜂房——Hive 安装 176 6.3 Hive 的服务 182 6.3.1 Hive shell 182 6.3.2 JDBC/ODBC 支持 183 6.3.3 Thrift 服务 184 6.3.4 Web 接口 185 6.3.5 元数据服务 186 6.4 HiveQL 的使用 187 6.4.1 HiveQL 的数据类型 187 6.4.2 HiveQL 常用操作 188 6.5 Hive 示例 196 6.5.1 UDF 编程示例 196 6.5.2 UDAF 编程示例 198 6.6 实战:基于Hive 的Hadoop 日志分析 200 参考文献 209 第7 章 Pig——一头什么都能吃的猪 7.1 Pig 的基本框架 211 7.2 Pig 的安装 212 7.2.1 开始安装Pig 212 7.2.2 验证安装 213 7.3 Pig 的使用 214 7.3.1 Pig 的MapReduce 模式 214 7.3.2 使用Pig 216 7.3.3 Pig 的调试 219 7.4 Pig Latin 编程语言 224 7.4.1 数据模型 224 7.4.2 数据类型 225 7.4.3 运算符 226 7.4.4 常用操作 228 7.4.5 用户自定义函数 231 7.5 实战:基于Pig 的通话记录查询 231 7.5.1 应用场景 231 7.5.2 设计实现 232 参考文献 238 第8 章 Facebook 的女神——Cassandra 8.1 洞察Cassandra 的全貌 240 8.1.1 目标及特点 240 8.1.2 体系结构 241 8.1.3 存储机制 243 8.1.4 数据操作过程 244 8.2 让Cassandra 飞 247 8.2.1 Windows 7 下单机安装 247 8.2.2 Linux 下分布式安装 249 8.3 Cassandra 操作示例 253 8.3.1 客户端命令代码跟踪 253 8.3.2 增删Cassandra 节点 262 8.3.3 Jconsole 监控Cassandra 263 8.4 Cassandra 与MapReduce 结合 266 8.4.1 需求分析 266 8.4.2 编码流程分析 267 8.4.3 MapReduce 的核心代码 268 参考文献 269 第9 章 Chukwa——收集数据的大乌龟 9.1 初识Chukwa 271 9.1.1 为什么需要Chukwa 271 9.1.2 什么是Chukwa 272 9.2 Chukwa 架构与设计 274 9.2.1 代理与适配器 276 9.2.2 元数据 277 9.2.3 收集器 278 9.2.4 MapReduce 作业 279 9.2.5 HICC 280 9.2.6 数据接口与支持 280 9.3 Chukwa 安装与配置 281 9.3.1 Chukwa 安装 281 9.3.2 源节点代理配置 284 9.3.3 收集器 288 9.3.4 Demux 作业与HICC 配置 289 9.4 Chukwa 小试 291 9.4.1 数据生成 291 9.4.2 数据收集 292 9.4.3 数据处理 292 9.4.4 数据析取 293 9.4.5 数据稀释 294 9.4.6 数据显示 294 参考文献 295 第10 章 一统天下——ZooKeeper 10.1 Zookeeper 是个谜 297 10.1.1 ZooKeeper 工作原理 298 10.1.2 ZooKeeper 的特性 301 10.2 ZooKeeper 安装和编程 303 10.2.1 ZooKeeper 的安装和配置 303 10.2.2 ZooKeeper 的编程实现 306 10.3 ZooKeeper 演练:进程调度系统 308 10.3.1 设计方案 308 10.3.2 设计实现 309 10.4 实战演练:ZooKeeper 实现NameNode 自动切换 318 10.4.1 设计思想 319 10.4.2 详细设计 319 10.4.3 编码 321 10.4.4 实战总结 329 参考文献 329 第11 章 综合实战1——打造一个搜索引擎 11.1 系统工作原理 331 11.2 网页搜集与信息提取 333 11.2.1 网页搜集 334 11.2.2 网页信息的提取与存储 337 11.3 基于MapReduce 的预处理 338 11.3.1 元数据过滤 339 11.3.2 生成倒排文件 341 11.3.3 建立二级索引 353 11.3.4 小节 357 11.4 建立Web 信息查询服务 358 11.4.1 建立前台查询接口 358 11.4.2 后台信息查询与合并 359 11.4.3 返回显示结果 360 11.5 系统优化 361 11.5.1 存储方面的优化 361 11.5.2 计算方面的优化 362 11.6 本章总结 363 第12 章 综合实战2——生物信息学应用 12.1 背景 366 12.2 总体框架 368 12.3 系统实现 370 12.3.1 序列数据库的切分和存储 370 12.3.2 构造单词列表和扫描器 375 12.3.3 Map:扫描和扩展 376 12.3.4 主控程序 378 12.4 扩展性能测试 381 12.5 本章总结 382 参考文献 383 第13 章 综合实战3——移动通信信令监测与查询 13.1 分析与设计 385 13.1.1 CDR 数据文件的检测与索引创建任务调度 388 13.1.2 从HDFS 读取数据并创建索引 389 13.1.3 查询CDR 信息 390 13.2 实现代码 391 13.2.1 CDR 文件检测和索引创建任务调度程序 392 13.2.2 读取CDR 数据和索引创建处理 397 13.2.3 CDR 查询 402 13.3 本章总结 407 参考文献 407 第14 章 高枕无忧——Hadoop 容错 14.1 Hadoop 的可靠性 409 14.1.1 HDFS 中NameNode 单点问题 409 14.1.2 HDFS 数据块副本机制 410 14.1.3 HDFS 心跳机制 411 14.1.4 HDFS 负载均衡 412 14.1.5 MapReduce 容错 413 14.2 Hadoop 的SecondaryNameNode 机制 414 14.2.1 磁盘镜像与日志文件 414 14.2.2 SecondaryNameNode 更新镜像的流程 414 14.3 Avatar 机制 418 14.3.1 系统架构 419 14.3.2 Avatar 元数据同步机制 420 14.3.3 故障切换过程 423 14.3.4 Avatar 运行流程 426 14.3.5 Avatar 故障切换流程 431 14.4 Avatar 实战 436 14.4.1 实验环境 436 14.4.2 编译Avatar 437 14.4.3 Avatar 安装和配置 440 14.4.4 Avatar 启动运行与宕机切换 452 参考文献 456
上传时间:2018-02 大小:58.88MB
- 58.74MB
实战Hadoop:开启通向云计算的捷径
2018-12-14实战Hadoop:开启通向云计算的捷径
- 58.76MB
实战Hadoop:开启通向云计算的捷径(刘鹏) 高清完整中文版PDF下载
2018-02-26实战Hadoop:开启通向云计算的捷径(刘鹏) 高清完整中文版PDF下载
- 58.45MB
实战Hadoop:开启通向云计算的捷径(刘鹏)
2018-12-19实战Hadoop:开启通向云计算的捷径(刘鹏)PDF电子书,已添加目录。
- 54.67MB
实战Hadop:开启通向云计算的捷径(刘鹏)
2014-12-04《实战hadoop--开启通向云计算的捷径》是原著的hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。...
- 69B
实战Hadoop:开启通向云计算的捷径(刘鹏)
2019-01-09该文档是实战Hadoop:开启通向云计算的捷径(刘鹏)这本书的下载地址及提取码
- 57.50MB
实战Hadop:开启通向云计算的捷径.刘鹏
2018-05-23内容简介《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算...
- 297KB
实战hadoop资料集:开启通向云计算的捷径
2014-01-07实战hadoop资料集:开启通向云计算的捷径,Hadoop的资料下载
- 33.69MB
《实战Hadoop--开启通向云计算的捷径》源码
2016-03-21《实战Hadoop--开启通向云计算的捷径》源码,很详细很好的Hadoop资料,与大家分享,下载后给个赞,谢谢!
- 33.69MB
实战Hadoop--开启通向云计算的捷径 源代码
2013-12-27实战Hadoop--开启通向云计算的捷径 源代码 第1章 神奇的大象——Hadoop (无源码) 第2章 HDFS——不怕故障的海量存储 (源码下载) 第3章 分久必合——MapReduce (源码下载) 第4章 一张无限大的表——HBase ...
- 57.49MB
实战Hadoop-开启通向云计算的捷径.rar
2019-06-08实战Hadoop 开启通向云计算的捷径 PDF
- 58.77MB
Hadoop:开启通向云计算的捷径(刘鹏).pdf
2014-10-21刘鹏的《Hadoop实战》是Hadoop初学者必备宝典,对于刚刚接触Hadoop的初学者可以看看,此书也有些问题,在一些问题上语焉不详,各位看官要注意。
- 58.32MB
实战hadoop
2016-01-04《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算专家刘鹏...
- 33.73MB
实战hadoop中的源码
2019-04-18实战hadoop,源码,刘鹏,开启通向云计算的捷径 实战hadoop,源码,刘鹏,开启通向云计算的捷径 实战hadoop,源码,刘鹏,开启通向云计算的捷径 实战hadoop,源码,刘鹏,开启通向云计算的捷径
- 58.41MB
实战Hadoop
2016-05-04实战Hadop:开启通向云计算的捷径(刘鹏).pdf
- 85.41MB
Hadoop中文电子书二
2015-12-031、Hadoop权威指南 第2版中文版 .pdf 2、高可用性的HDFS:Hadoop分布式文件系统深度实践.pdf 3、实战Hadoop——开启通向云计算的捷径 刘鹏.pdf
- 191.6MB
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计
2023-10-30项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。
- 685.0MB
hadoop-3.3.4.tar.gz + winutils 安装环境
2023-08-03【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils ) https://hanshuliang.blog.csdn.net/article/details/132045605 一、下载 Hadoop 二、解压 Hadoop 三、设置 Hadoop 环境变量 四、配置 Hadoop 环境脚本 五、安装 winutils 六、重启电脑 七、验证 Hadoop 安装效果
- 1.49MB
基于Hadoop的电影影评数据分析
2023-04-04是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
- 1.65MB
基于大数据的音乐推荐系统(适合本科毕设)
2023-02-02主要是用于大家对于大数据的基本处理,适合大学生本科毕设的参考。
- 191.6MB
基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载)
2023-10-21基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载) 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。例如,
- 21.24MB
适用于hadoop 3.3.5 3.3.6版本的winutils
2023-10-08winutils文件合集,Hadoop3.3.5以及3.3.6可用 winutils.exe是在windows系统上安装hadoop时所需要的winutils文件,内附多个版本,支持 hadoop-3.3.5 hadoop-3.3.6
- 1.26MB
数据科学导论实验报告 实验1:常用Linux操作和 Hadoop操作
2023-04-30数据科学导论 实验1:常用Linux操作和 Hadoop操作 1、Linux虚拟机安装和操作 2、Hadoop安装和操作 1)创建Hadoop用户 2)SSH登录权限设置 3)安装Java环境 4)单机安装配置 5)伪分布式安装配置
- 177.69MB
淘宝用户行为数据集
2019-01-053182257条数据,可做推荐系统,数据分析 它包含字段(id, uid,age,gender,item_id, behavior_type, item_category, date, province) //1.浏览、2.收藏、3.加购物车 4.购买 7.统计各省的前十热门关注产品(浏览+收藏+添加购物车+购买总量最多前10的产品) 8.统计各省的前十热门购买产品(销售最多前10的产品) 9.统计各省销售最好的产品类别前10(销售最多前10的产品类别) 10.统计各省男女用户数量(gender 0:男 1:女 2:未知)
- 322.41MB
hadoop-3.1.3.tar.gz
2022-01-24[免费]hadoop-3.1.3官网的包 你们CSDN上的这些人是有多不要脸,这玩意还要积分,怎么滴,你们写出来的hadoop?
- 7.75MB
中文官方教程_tableau_prep.pdf
2021-04-13数据分析,数据挖掘,ETL处理工程师等。
- 19.46MB
数据中台建设方案.docx
2021-08-29数据中台建设方案,word版本,可以用于各类技术方案编写,投标。
- 15.24MB
Hadoop 之 winutils
2022-01-21在windows上运行Hadoop相关程序时报错问题解决(比如Spark) 如果需要积分或者校验码,可以去百度网盘中下载,地址如下: 链接:https://pan.baidu.com/s/1RVpmbtjuQL3lbAEYfjr2EA 提取码:1234
- 21.94MB
winutils-master.zip
2021-12-24hadoop各版本hadoop.dll和winutils
- 10KB
cdh6需要的allkeys.asc
2022-04-27在安装cdh6.3.2时提示找不到allkeys.asc的问题解决办法,解压出来的文件放到/var/www/html/cm6下,此目录名cm6称根据你实际配置修改即可。此文件适合cdh6所有版本。提供免费下载,欢迎下载! 把解压出来的文件allkeys.asc放到你自己目录即可
- 5.9MB
企业数据中台建设.pdf
2020-08-12DT 时代,很多公司包括传统型企业都纷纷加入到数字化转型的队伍中来,数据的价值变现显得越来越重要。那么如何挖掘更多的企业数据价值呢,数据中台就是目前的一个最主要手段,数据中台改变了企业原来利用数据的形式(传统数仓、BI),通过业务数据化、数据资产化、资产服务化、服务业务化的四化良性高效闭环,加速了从数据资源到数据资产到价值变现的过程,提高了企业的业务响应力、创新力、价值力。通过降本增效,数据化智能运营,打造出数据驱动的智能化企业,从而更高效的为企业创造更多的价值。 本篇文章将从以下几个方面介绍整个数据中台建设的体系方案: 1. 为什么需要数据中台 2. 哪些企业适合做数据中台 3. 数据中台建设有哪些方法论和策略 4. 数据中台核心内容的建设方案 5. 业界一些数据中台建设分享资料