Hadoop大数据实战权威指南(第2版)
电子书推荐
-
大数据架构详解:从数据获取到深度学习 高清完整.pdf版下载 评分:
清晰完整 第一部分 大数据的本质 第1章 大数据是什么 2 1.1 大数据导论 2 1.1.1 大数据简史 2 1.1.2 大数据现状 3 1.1.3 大数据与BI 3 1.2 企业数据资产 4 1.3 大数据挑战 5 1.3.1 成本挑战 6 1.3.2 实时性挑战 6 1.3.3 安全挑战 6 1.4 小结 6 第2章 运营商大数据架构 7 2.1 架构驱动的因素 7 2.2 大数据平台架构 7 2.3 平台发展趋势 8 2.4 小结 8 第3章 运营商大数据业务 9 3.1 运营商常见的大数据业务 9 3.1.1 SQM(运维质量管理) 9 3.1.2 CSE(客户体验提升) 9 3.1.3 MSS(市场运维支撑) 10 3.1.4 DMP(数据管理平台) 10 3.2 小结 11 第二部分 大数据技术 第4章 数据获取 14 4.1 数据分类 14 4.2 数据获取组件 14 4.3 探针 15 4.3.1 探针原理 15 4.3.2 探针的关键能力 16 4.4 网页采集 26 4.4.1 网络爬虫 26 4.4.2 简单爬虫Python代码示例 32 4.5 日志收集 33 4.5.1 Flume 33 4.5.2 其他日志收集组件 47 4.6 数据分发中间件 47 4.6.1 数据分发中间件的作用 47 4.6.2 Kafka架构和原理 47 4.7 小结 82 第5章 流处理 83 5.1 算子 83 5.2 流的概念 83 5.3 流的应用场景 84 5.3.1 金融领域 84 5.3.2 电信领域 85 5.4 业界两种典型的流引擎 85 5.4.1 Storm 85 5.4.2 Spark Streaming 89 5.4.3 融合框架 102 5.5 CEP 108 5.5.1 CEP是什么 108 5.5.2 CEP的架构 109 5.5.3 Esper 110 5.6 实时结合机器学习 110 5.6.1 Eagle的特点 111 5.6.2 Eagle概览 111 5.7 小结 116 第6章 交互式分析 117 6.1 交互式分析的概念 117 6.2 MPP DB技术 118 6.2.1 MPP的概念 118 6.2.2 典型的MPP数据库 121 6.2.3 MPP DB调优实战 131 6.2.4 MPP DB适用场景 162 6.3 SQL on Hadoop 163 6.3.1 Hive 163 6.3.2 Phoenix 165 6.3.3 Impala 166 6.4 大数据仓库 167 6.4.1 数据仓库的概念 167 6.4.2 OLTP/OLAP对比 168 6.4.3 大数据场景下的同与不同 168 6.4.4 查询引擎 169 6.4.5 存储引擎 170 6.5 小结 171 第7章 批处理技术 172 7.1 批处理技术的概念 172 7.2 MPP DB技术 172 7.3 MapReduce编程框架 173 7.3.1 MapReduce起源 173 7.3.2 MapReduce原理 173 7.3.3 Shuffle 174 7.3.4 性能差的主要原因 177 7.4 Spark架构和原理 177 7.4.1 Spark的起源和特点 177 7.4.2 Spark的核心概念 178 7.5 BSP框架 217 7.5.1 什么是BSP模型 217 7.5.2 并行模型介绍 218 7.5.3 BSP模型基本原理 220 7.5.4 BSP模型的特点 222 7.5.5 BSP模型的评价 222 7.5.6 BSP与MapReduce对比 222 7.5.7 BSP模型的实现 223 7.5.8 Apache Hama简介 223 7.6 批处理关键技术 227 7.6.1 CodeGen 227 7.6.2 CPU亲和技术 228 7.7 小结 229 第8章 机器学习和数据挖掘 230 8.1 机器学习和数据挖掘的联系与区别 230 8.2 典型的数据挖掘和机器学习过程 231 8.3 机器学习概览 232 8.3.1 学习方式 232 8.3.2 算法类似性 233 8.4 机器学习&数据挖掘应用案例 235 8.4.1 尿布和啤酒的故事 235 8.4.2 决策树用于电信领域故障快速定位 236 8.4.3 图像识别领域 236 8.4.4 自然语言识别 238 8.5 交互式分析 239 8.6 深度学习 240 8.6.1 深度学习概述 240 8.6.2 机器学习的背景 241 8.6.3 人脑视觉机理 242 8.6.4 关于特征 244 8.6.5 需要有多少个特征 245 8.6.6 深度学习的基本思想 246 8.6.7 浅层学习和深度学习 246 8.6.8 深度学习与神经网络 247 8.6.9 深度学习的训练过程 248 8.6.10 深度学习的框架 248 8.6.11 深度学习与GPU 255 8.6.12 深度学习小结与展望 256 8.7 小结 257 第9章 资源管理 258 9.1 资源管理的基本概念 258 9.1.1 资源调度的目标和价值 258 9.1.2 资源调度的使用限制及难点 258 9.2 Hadoop领域的资源调度框架 259 9.2.1 YARN 259 9.2.2 Borg 260 9.2.3 Omega 262 9.2.4 本节小结 263 9.3 资源分配算法 263 9.3.1 算法的作用 263 9.3.2 几种调度算法分析 263 9.4 数据中心统一资源调度 271 9.4.1 Mesos+Marathon架构和原理 271 9.4.2 Mesos+Marathon小结 283 9.5 多租户技术 284 9.5.1 多租户概念 284 9.5.2 多租户方案 284 9.6 基于应用描述的智能调度 287 9.7 Apache Mesos架构和原理 288 9.7.1 Apache Mesos背景 288 9.7.2 Apache Mesos总体架构 288 9.7.3 Apache Mesos工作原理 290 9.7.4 Apache Mesos关键技术 295 9.7.5 Mesos与YARN比较 304 9.8 小结 305 第10章 存储是基础 306 10.1 分久必合,合久必分 306 10.2 存储硬件的发展 306 10.2.1 机械硬盘的工作原理 306 10.2.2 SSD的原理 307 10.2.3 3DXPoint 309 10.2.4 硬件发展小结 309 10.3 存储关键指标 309 10.4 RAID技术 309 10.5 存储接口 310 10.5.1 文件接口 311 10.5.2 裸设备 311 10.5.3 对象接口 312 10.5.4 块接口 316 10.5.5 融合是趋势 328 10.6 存储加速技术 328 10.6.1 数据组织技术 328 10.6.2 缓存技术 335 10.7 小结 336 第11章 大数据云化 337 11.1 云计算定义 337 11.2 应用上云 337 11.2.1 Cloud Native概念 338 11.2.2 微服务架构 338 11.2.3 Docker配合微服务架构 342 11.2.4 应用上云小结 348 11.3 大数据上云 348 11.3.1 大数据云服务的两种模式 348 11.3.2 集群模式AWSEMR 349 11.3.3 服务模式Azure Data Lake Analytics 352 11.4 小结 354 第三部分 大数据文化 第12章 大数据技术开发文化 356 12.1 开源文化 356 12.2 DevOps理念 356 12.2.1 Development和Operations的组合 357 12.2.2 对应用程序发布的影响 357 12.2.3 遇到的问题 358 12.2.4 协调人 358 12.2.5 成功的关键 359 12.3 速度远比你想的重要 359 12.4 小结 361
上传时间:2017-10 大小:58.38MB
- 265KB
五种大数据架构简介.pdf
2022-12-24五种⼤数据架构简介 ⼤数据是收集、整理、处理⼤容量数据集,并从中获得见解所需的⾮传统战略和技术的总称。虽然处理数据所需的计算能⼒或存储容量早已 超过⼀台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近⼏年才经历了⼤规模扩展。 本⽂将介绍⼤数据系统⼀个最基本的组件:处理框架。处理框架负责对系统中的数据进⾏计算,例如处理从⾮易失存储中读取的数据,或处 理刚刚摄⼊到系统中的数据。数据的计算则是指从⼤量单⼀数据点中提取信息和见解的过程。 下⽂将介绍这些框架: · 仅批处理框架: Apache Hadoop · 仅流处理框架: Apache Storm Apache Samza · 混合框架: Apache Spark Apache Flink ⼤数据处理框架是什么? ⼤数据处理框架是什么? 处理框架和处理引擎负责对数据系统中的数据进⾏计算。虽然"引擎"和"框架"之间的区别没有什么权威的定义,但⼤部分时候可以将前 者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作⽤的⼀系列组件。 例如Apache Hadoop可以看作⼀种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使⽤。例如另⼀个 框架Apache Spark可以纳⼊Hadoop并取代MapReduce。组件之间的这种互操作性是⼤数据系统灵活性如此之⾼的原因之⼀。 虽然负责处理⽣命周期内这⼀阶段数据的系统通常都很复杂,但从⼴义层⾯来看它们的⽬标是⾮常⼀致的:通过对数据执⾏操作提⾼理解能 ⼒,揭⽰出数据蕴含的模式,并针对复杂互动获得见解。 为了简化这些组件的讨论,我们会通过不同处理框架的设计意图,按照所处理的数据状态对其进⾏分类。⼀些系统可以⽤批处理⽅式处理数 据,⼀些系统可以⽤流⽅式处理连续不断流⼊系统的数据。此外还有⼀些系统可以同时处理这两类数据。 在深⼊介绍不同实现的指标和结论之前,⾸先需要对不同处理类型的概念进⾏⼀个简单的介绍。 批处理系统 批处理系统 批处理在⼤数据世界有着悠久的历史。批处理主要操作⼤容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使⽤的数据集通常符合下列特征… · 有界:批处理数据集代表数据的有限集合 · 持久:数据通常始终存储在某种类型的持久存储位置中 · ⼤量:批处理操作通常是处理极为海量数据集的唯⼀⽅法 批处理⾮常适合需要访问全套记录才能完成的计算⼯作。例如在计算总数和平均数时,必须将数据集作为⼀个整体加以处理,⽽不能将其视 作多条记录的集合。这些操作要求在计算进⾏过程中数据维持⾃⼰的状态。 需要处理⼤量数据的任务通常最适合⽤批处理操作进⾏处理。⽆论直接从持久存储设备处理数据集,或⾸先将数据集载⼊内存,批处理系统 在设计过程中就充分考虑了数据的量,可提供充⾜的处理资源。由于批处理在应对⼤量持久数据⽅⾯的表现极为出⾊,因此经常被⽤于对历 史数据进⾏分析。 ⼤量数据的处理需要付出⼤量时间,因此批处理不适合对处理时间要求较⾼的场合。 Apache Hadoop Apache Hadoop是⼀种专⽤于批处理的处理框架。Hadoop是⾸个在开源社区获得极⼤关注的⼤数据框架。基于⾕歌有关海量数据处理所 发表的多篇论⽂与经验的Hadoop重新实现了相关算法和组件堆栈,让⼤规模批处理技术变得更易⽤。 新版Hadoop包含多个组件,即多个层,通过配合使⽤可处理批数据: · HDFS:HDFS是⼀种分布式⽂件系统层,可对集群节点间的存储和复制进⾏协调。HDFS确保了⽆法避免的节点故障发⽣后数据依然可 ⽤,可将其⽤作数据来源,可⽤于存储中间态的处理结果,并可存储计算的最终结果。 · YARN:YARN是Yet Another Resource Negotiator(另⼀个资源管理器)的缩写,可充当Hadoop堆栈的集群协调组件。该组件负 责协调并管理底层资源和调度作业的运⾏。通过充当集群资源的接⼝,YARN使得⽤户能在Hadoop集群中使⽤⽐以往的迭代⽅式运⾏更多 类型的⼯作负载。 · MapReduce:MapReduce是Hadoop的原⽣批处理引擎。 批处理模式 批处理模式 Hadoop的处理功能来⾃MapReduce引擎。MapReduce的处理技术符合使⽤键值对的map、shuffle、reduce算法要求。基本处理过程 包括: · 从HDFS⽂件系统读取数据集 · 将数据集拆分成⼩块并分配给所有可⽤节点 · 针对每个节点上的数据⼦集进⾏计算(计算的中间态结果会重新写⼊HDFS) · 重新分配中间态结果并按照键进⾏分组 · 通过对每个节点计算的结果进⾏汇总和组合对每个键的值进⾏"Reducing" · 将计算⽽来的最终结果重新写⼊ HDFS 优势和局限 由于这种⽅法严重依赖持久存储,每个任务需要多次执
- 1.57MB
数据的本质
2018-10-30数据的本质 无人不是分析者 阿里大数据实践 大数据从业者参考内容
- 220KB
3.大数据生态圈.pdf
2019-07-263.大数据生态圈.pdf
- 5.74MB
大数据时代下的数据连接.pdf
2019-08-04上海技术峰会,大数据时代下的数据连接
- 2.36MB
大数据时代的科学数据战略(卢东明) 高清完整中文版PDF下载
2018-02-26大数据时代的科学数据战略(卢东明) 高清完整中文版PDF下载
- 1.71MB
大数据架构详解 从数据获取到深度学习.pptx
2023-10-05大数据架构详解 从数据获取到深度学习.pptx
- 1.84MB
BI数据架构
2018-03-26《大数据架构详解:从数据获取到深度学习》从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术...
- 14KB
大数据技术体系详解:原理、架构与实践.docx
2023-09-13大数据技术体系详解:原理、架构与实践.docx
- 983KB
20210703-中信证券-食品饮料行业招股说明书数据详解系列之:紫燕食品.pdf
2021-07-0320210703-中信证券-食品饮料行业招股说明书数据详解系列之:紫燕食品.pdf
- 10.59MB
USB开发大全 (USB设备驱动开发深度解析-宋宝华.pdf usb 中文协议 USB结构体系.pdf 嵌入式Linux的USB驱动程序开发.pdf linux设备驱动开发详解-usb篇.pdf 快速USB学习.doc
2010-12-28USB开发大全 (USB设备驱动开发深度解析-宋宝华.pdf usb 中文协议 USB结构体系.pdf 嵌入式Linux的USB驱动程序开发.pdf linux设备驱动开发详解-usb篇.pdf 快速USB学习.doc
- 138.65MB
大数据技术原理与应用
2019-04-17大数据技术 大数据技术
- 3.90MB
企业大数据架构及应用.pdf
2021-03-09企业中台(大中台小前台架构,服务治理及能力开放,企业级能力开放运营架构,企业数据中台架构,大数据处理能力开放,),企业数据资产(客户业务数据与客户网络数据),典型大数据形态及应用(大数据产品主要形态,大数据SaaS服务,大数据PAAS服务,典型应用等)。
- 3.44MB
大数据本质
2014-12-28介绍大数据应用场景,适合对大数据的了解以及方案等。 同时标注东软,来自网络
- 2.12MB
技术的本质.pdf
2017-04-30技术的本质.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!
- 1.58MB
深度学习+论文详解:FasterR-CNN原理与优势 深度学习原理.pdf
2022-04-13深度学习+论文详解:FasterR-CNN原理与优势 深度学习原理.pdf
- 3.37MB
系统详解:从自动泊车到自主泊车.pdf
2021-08-14系统详解:从自动泊车到自主泊车
- 1.88MB
家电轻工行业周报:618预售数据详解:九阳和科沃斯表现亮眼.pdf
2021-07-10家电轻工行业周报:618预售数据详解:九阳和科沃斯表现亮眼.pdf
- 36.48MB
[TCP-IP详解卷2:实现]W.Richard.Stevens.pdf
2013-11-01TCP-IP详解卷2:实现 作者:W.Richard.Stevens 翻译:范建华等 校对:谢希仁 高清资源,共同分享,学习TCP-IP协议最好的书。
- 21KB
掘金大数据:电信数据金矿详解、挖掘及应用.docx
2023-09-13掘金大数据:电信数据金矿详解、挖掘及应用.docx
- 40.57MB
TCP-IP详解卷[1,2,3]卷.完整版.中文版.pdf
2014-08-07TCP-IP详解卷[1,2,3]卷.完整版.中文版.pdf
- 11.91MB
SPSS数据分析实例详解.pdf
2022-04-04SPSS数据分析实例详解.pdfSPSS数据分析实例详解.pdfSPSS数据分析实例详解.pdfSPSS数据分析实例详解.pdfSPSS数据分析实例详解.pdfSPSS数据分析实例详解.pdf
- 1.53MB
20000字详解数据湖:概念、特征、架构与案例.pdf
2022-02-2220000字详解数据湖:概念、特征、架构与案例.pdf
- 0B
大型网站架构系列:负载均衡详解.pdf
2022-11-16大型网站架构系列:负载均衡详解.pdf
- 10.21MB
嵌入式Linux应用程序开发详解(完整版).pdf
2021-11-25嵌入式Linux应用程序开发详解(完整版).pdf
- 104KB
单片机程序架构详解篇_时间片轮询.pdf
2021-04-2819年找到的这份资料,找到的过程异常艰辛,是一位老工程师总结的,我又加了一些注解,希望能帮助到大家~
- 726KB
OpenStack架构详解.pdf
2021-10-02OpenStack架构详解.pdf
- 919KB
深度学习:图像的卷积原理和本质(详解)。 深度学习原理.pdf
2022-04-13深度学习:图像的卷积原理和本质(详解)。 深度学习原理.pdf
- 639KB
华为战略管理“五看三定”模型详解:从战略洞察到输出战略机会点.pdf
2023-11-07华为战略管理“五看三定”模型详解:从战略洞察到输出战略机会点.pdf
- 2.84MB
万字详解大数据架构新概念.docx
2023-04-26万字详解大数据架构新概念.docx