大数据架构详解:从数据获取到深度学习
作者:朱洁、罗华霖
出版社:电子工业出版社
ISBN:9787121300004
VIP会员免费
(仅需0.8元/天)
¥ 27.6
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
大数据架构详解 高清完整.pdf版下载 评分:
清晰完整 第一部分 大数据的本质 第1章 大数据是什么 2 1.1 大数据导论 2 1.1.1 大数据简史 2 1.1.2 大数据现状 3 1.1.3 大数据与BI 3 1.2 企业数据资产 4 1.3 大数据挑战 5 1.3.1 成本挑战 6 1.3.2 实时性挑战 6 1.3.3 安全挑战 6 1.4 小结 6 第2章 运营商大数据架构 7 2.1 架构驱动的因素 7 2.2 大数据平台架构 7 2.3 平台发展趋势 8 2.4 小结 8 第3章 运营商大数据业务 9 3.1 运营商常见的大数据业务 9 3.1.1 SQM(运维质量管理) 9 3.1.2 CSE(客户体验提升) 9 3.1.3 MSS(市场运维支撑) 10 3.1.4 DMP(数据管理平台) 10 3.2 小结 11 第二部分 大数据技术 第4章 数据获取 14 4.1 数据分类 14 4.2 数据获取组件 14 4.3 探针 15 4.3.1 探针原理 15 4.3.2 探针的关键能力 16 4.4 网页采集 26 4.4.1 网络爬虫 26 4.4.2 简单爬虫Python代码示例 32 4.5 日志收集 33 4.5.1 Flume 33 4.5.2 其他日志收集组件 47 4.6 数据分发中间件 47 4.6.1 数据分发中间件的作用 47 4.6.2 Kafka架构和原理 47 4.7 小结 82 第5章 流处理 83 5.1 算子 83 5.2 流的概念 83 5.3 流的应用场景 84 5.3.1 金融领域 84 5.3.2 电信领域 85 5.4 业界两种典型的流引擎 85 5.4.1 Storm 85 5.4.2 Spark Streaming 89 5.4.3 融合框架 102 5.5 CEP 108 5.5.1 CEP是什么 108 5.5.2 CEP的架构 109 5.5.3 Esper 110 5.6 实时结合机器学习 110 5.6.1 Eagle的特点 111 5.6.2 Eagle概览 111 5.7 小结 116 第6章 交互式分析 117 6.1 交互式分析的概念 117 6.2 MPP DB技术 118 6.2.1 MPP的概念 118 6.2.2 典型的MPP数据库 121 6.2.3 MPP DB调优实战 131 6.2.4 MPP DB适用场景 162 6.3 SQL on Hadoop 163 6.3.1 Hive 163 6.3.2 Phoenix 165 6.3.3 Impala 166 6.4 大数据仓库 167 6.4.1 数据仓库的概念 167 6.4.2 OLTP/OLAP对比 168 6.4.3 大数据场景下的同与不同 168 6.4.4 查询引擎 169 6.4.5 存储引擎 170 6.5 小结 171 第7章 批处理技术 172 7.1 批处理技术的概念 172 7.2 MPP DB技术 172 7.3 MapReduce编程框架 173 7.3.1 MapReduce起源 173 7.3.2 MapReduce原理 173 7.3.3 Shuffle 174 7.3.4 性能差的主要原因 177 7.4 Spark架构和原理 177 7.4.1 Spark的起源和特点 177 7.4.2 Spark的核心概念 178 7.5 BSP框架 217 7.5.1 什么是BSP模型 217 7.5.2 并行模型介绍 218 7.5.3 BSP模型基本原理 220 7.5.4 BSP模型的特点 222 7.5.5 BSP模型的评价 222 7.5.6 BSP与MapReduce对比 222 7.5.7 BSP模型的实现 223 7.5.8 Apache Hama简介 223 7.6 批处理关键技术 227 7.6.1 CodeGen 227 7.6.2 CPU亲和技术 228 7.7 小结 229 第8章 机器学习和数据挖掘 230 8.1 机器学习和数据挖掘的联系与区别 230 8.2 典型的数据挖掘和机器学习过程 231 8.3 机器学习概览 232 8.3.1 学习方式 232 8.3.2 算法类似性 233 8.4 机器学习&数据挖掘应用案例 235 8.4.1 尿布和啤酒的故事 235 8.4.2 决策树用于电信领域故障快速定位 236 8.4.3 图像识别领域 236 8.4.4 自然语言识别 238 8.5 交互式分析 239 8.6 深度学习 240 8.6.1 深度学习概述 240 8.6.2 机器学习的背景 241 8.6.3 人脑视觉机理 242 8.6.4 关于特征 244 8.6.5 需要有多少个特征 245 8.6.6 深度学习的基本思想 246 8.6.7 浅层学习和深度学习 246 8.6.8 深度学习与神经网络 247 8.6.9 深度学习的训练过程 248 8.6.10 深度学习的框架 248 8.6.11 深度学习与GPU 255 8.6.12 深度学习小结与展望 256 8.7 小结 257 第9章 资源管理 258 9.1 资源管理的基本概念 258 9.1.1 资源调度的目标和价值 258 9.1.2 资源调度的使用限制及难点 258 9.2 Hadoop领域的资源调度框架 259 9.2.1 YARN 259 9.2.2 Borg 260 9.2.3 Omega 262 9.2.4 本节小结 263 9.3 资源分配算法 263 9.3.1 算法的作用 263 9.3.2 几种调度算法分析 263 9.4 数据中心统一资源调度 271 9.4.1 Mesos+Marathon架构和原理 271 9.4.2 Mesos+Marathon小结 283 9.5 多租户技术 284 9.5.1 多租户概念 284 9.5.2 多租户方案 284 9.6 基于应用描述的智能调度 287 9.7 Apache Mesos架构和原理 288 9.7.1 Apache Mesos背景 288 9.7.2 Apache Mesos总体架构 288 9.7.3 Apache Mesos工作原理 290 9.7.4 Apache Mesos关键技术 295 9.7.5 Mesos与YARN比较 304 9.8 小结 305 第10章 存储是基础 306 10.1 分久必合,合久必分 306 10.2 存储硬件的发展 306 10.2.1 机械硬盘的工作原理 306 10.2.2 SSD的原理 307 10.2.3 3DXPoint 309 10.2.4 硬件发展小结 309 10.3 存储关键指标 309 10.4 RAID技术 309 10.5 存储接口 310 10.5.1 文件接口 311 10.5.2 裸设备 311 10.5.3 对象接口 312 10.5.4 块接口 316 10.5.5 融合是趋势 328 10.6 存储加速技术 328 10.6.1 数据组织技术 328 10.6.2 缓存技术 335 10.7 小结 336 第11章 大数据云化 337 11.1 云计算定义 337 11.2 应用上云 337 11.2.1 Cloud Native概念 338 11.2.2 微服务架构 338 11.2.3 Docker配合微服务架构 342 11.2.4 应用上云小结 348 11.3 大数据上云 348 11.3.1 大数据云服务的两种模式 348 11.3.2 集群模式AWSEMR 349 11.3.3 服务模式Azure Data Lake Analytics 352 11.4 小结 354 第三部分 大数据文化 第12章 大数据技术开发文化 356 12.1 开源文化 356 12.2 DevOps理念 356 12.2.1 Development和Operations的组合 357 12.2.2 对应用程序发布的影响 357 12.2.3 遇到的问题 358 12.2.4 协调人 358 12.2.5 成功的关键 359 12.3 速度远比你想的重要 359 12.4 小结 361
上传时间:2017-10 大小:58.38MB
- 318KB
[详细完整版]大数据解析.pdf
2022-06-22大数据解析 大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和 处理的数据集合, 是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的 海量、高增长率和多样化的信息资产[1] 在维克托· 迈尔-舍恩伯格及肯尼斯· 库克耶编写的《大数据时代》[2] 中大数据指不用随机 分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的 5V 特点(IBM 提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity (真实性)。[3] 基本信息 中文名 大数据 外文名 big data,mega data 别 称 Data Mining 提出者 维克托· 迈尔-舍恩伯格及肯尼斯· 库克耶 提出时间 2008 年 8 月中旬 应用学科 计算机,信息科学,统计学 适用领域范围 BI,工业 4.0,云计算,物联网,互联网+ 适用领域范围 人工智能 v4 特点 大量、高速、多样、价值 大数据定义 大数据与云计算的关系 对于"大数据"(Big data)研究机构 Gartner 给出了这样的定义。
- 37KB
大数据体系结构图
2018-06-04大数据体系结构图,Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。 Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境。
- 449KB
数据中台盛行,数据架构才是未来.pdf
2019-08-13在数字化转型的浪潮下,数据架构获得了越来越多的关注。作为企业架构中的关键纽带,数据架构解决了业务与数据间的映射,规范了应用架构中的数据集成关系,指导了技术架构的技术选型,在企业中发挥着不可或缺的作用。
- 37.13MB
数据结构实例(内含17个详细经典实例)
2019-05-15数据结构实践教程:内含17个经典数据结构实例 根据五个不同数据结构,对每个结构都有2~4个经典实例。每个实例都有项目简介、设计思路、数据结构、完整程序、运行结果五个部分,可以直接拿来做一篇课程设计。实例名称有:学生成绩管理系统、考试报名管理、约瑟夫生者死者游戏、迷宫旅行游戏、八皇后问题、停车场管理、单词检索统计程序、Internet网络通路、家谱管理、
- 448KB
大数据平台技术框架选型分析
2018-04-13大数据平台技术框架选型分析,是硬件软件的选择,组件的选型
- 2.84MB
万字详解大数据架构新概念.docx
2023-04-26万字详解大数据架构新概念.docx
- 1.71MB
大数据架构详解 从数据获取到深度学习.pptx
2023-10-05大数据架构详解 从数据获取到深度学习.pptx
- 14KB
大数据技术体系详解:原理、架构与实践.docx
2023-09-13大数据技术体系详解:原理、架构与实践.docx
- 298.43MB
18份大数据平台数据治理整体解决方案 大数据可视化平台建设方案汇总.zip
2022-03-2095页详解企业信息化整体解决方案完整版.ppt 101页XX电集团信息化总体解决方案汇报0111v8.pptx 102页XXX信息化解决方案v2.0.pptx 150页智慧城市精准营销+商业智能+旅游大数据+农业大数据+安防大数据综合甲级方案.pptx...
- 121KB
详解大数据时代下的三种存储架构 (2).pdf
2022-11-29。。。
- 304KB
Bigprovision:大数据的配置框架
2021-03-26在过去的几年中,大数据已引起广泛关注,并且开发了许多分析平台(例如Hadoop)来分析海量数据。 然而,提供,更不用说优化一个包括从计算基础架构到分析程序的各个方面的综合系统仍然是非常具有挑战性的。 为了解决这一挑战,在本文中,我们提出了一个新颖的供应框架BigProvision,以供应大数据分析系统。 该框架的主要思想是在给定一组样本数据和各种分析要求(例如预期结果,预算,响应时间等)的情况下,首先评估和建模不同大数据分析方法的性能。 根据评估和建模结果,BigProvision可以生成预配配置,该配置可用于配置整个系统以进行大数据分析。 为了评估所提出框架的性能,我们开发了一个实验原型,该原型支持三个分析平台:Hadoop,Spark和GraphLab。 我们的实验表明,对于经典的PageRank分析,在不同要求下,GraphLab和Spark都可以胜过Hadoop。 此外,通过对结果进行建模,我们的原型可以确定应处理完整数据集的系统的预期设置,例如机器数量和网络容量。 原型和实验表明,提出的框架具有极大的潜力,可以促进未来大数据分析系统的提供和优化。
- 339KB
常用大数据技术框架总结
2018-06-15对大数据平台技术框架的总结,适合初学者。相对来说都是干货,很好用
- 846KB
菊安酱的机器学习第1期-k-近邻算法(直播).pdf
2019-07-27k-近邻算法的课件。来自于菊安酱的机器学习实战12期的免费教程。内涵python源码。
- 3.29MB
2020人工智能之人机交互.pdf
2020-07-30由清华大学人工智能研究院、北京智源人工智能研究院和清华-中国工程知识智能联合研究中心编写的《人工智能之人机交互》报告正式发布。该报告以人机交互技术为核心,在梳理了其概念定义和发展历程的基础上,重点研究了主要技术的发展情况、领域专家现状和应用领域,列举了必读论文,并探讨了人机交互未来发展趋势。
- 5.68MB
基于BP神经网络的人脸识别
2018-05-17一、实验要求 采用三层前馈BP神经网络实现标准人脸YALE数据库的识别,编程语言为C系列语言。 二、BP神经网络的结构和学习算法 实验中建议采用如下最简单的三层BP神经网络,输入层为 ,有n个神经元节点,输出层具有m个神经元,网络输出为 ,隐含层具有k个神经元,采用BP学习算法训练神经网络。 BP神经网络的结构 BP网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对BP网络加以训练,网络就具有输入输出对之间的映射能力。 BP网络执行的是有教师训练,其样本集是由形如(输入向量,期望输出向量)的向量对构成的。在开始训练前,所有的权值和阈值都应该用一些不同的小随机数进行初始化。
- 4.14MB
深入浅出解析大数据平台架构.docx
2019-12-01深入浅出解析大数据平台架构.docx • 什么是大数据 • Hadoop介绍-HDFS、MR、Hbase • 大数据平台应用举例-腾讯 • 公司的大数据平台架构
- 121KB
详解大数据时代下的三种存储架构.pdf
2022-11-29。。。
- 799KB
详解Hadoop系统:Hadoop架构、各部分功能及对大数据的意义.pdf
2022-11-22。。。
- 5.45MB
bigData大数据实战经验和ppt详解
2018-05-31图计算技术应用探索.pptx; 券商大数据平台实践以及应用探讨—华泰证券李文强.pdf;...基于spark集群的券商个性化推荐系统架构设计最佳实践.pdf 基于Spark的数据湖项目初步实践.pdf 大数据建设及应用分享_20170923.pptx
- 91.46MB
数据湖数据仓库湖仓一体建设解决方案技术资料合集(15份).zip
2023-03-2020220824-数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?...湖仓一体架构构建与平台应用实践.pdf 湖仓一体:数据湖vs数据仓库之争?.doc 腾讯云原生湖仓一体技术在大规模数据场景中的应用实践.pdf
- 168KB
机器学习代码实现
2016-05-12机器学习,里面有贝叶斯分类器代码,决策树,哈希代码,k平均代码,knn分类,逻辑回归分类,smo代码,数据集和样本点都在里面,可以让初学者更好连接算法的作用,是python就可以跑。
- 7.66MB
机器学习个人笔记完整版中文
2017-11-14机器学习个人笔记完整版 中文版
- 10.83MB
传播学书《传播的偏向》
2009-06-14传播的偏向——传播学书目之一,还不错的O(∩_∩)O哈!
- 111KB
机器学习 tom版教材 课后题部分答案
2013-01-03机器学习 tom版教材 课后题部分答案 机器学习作业参考答案
- 1.65MB
IRI2012电离层模型 matlab代码
2017-09-13IRI2012电离层模型 International Reference Ionosphere (IRI) Model Computes the International Reference Ionosphere (IRI), which is an internationally recognized model for various ionospheric properties. I would call it more of a hack than a true IRI implementation as it works by querying the online interface at http://omniweb.gsfc.nasa.gov/vitmo/iri_vitmo.html using the curl command on an operating system terminal. Because of this, it requires an internet connection and is pretty slow, but if high speed is not an important issue for you, this can be an easy way to get IRI data into MATLAB. An example script for how to use the function is given as iritest.m. This is also the script that generated the attached screenshot. It took a little less than 15 minutes to run on my computer. As stated, the query is made using the command curl in an operating system terminal. This program is built-in to Unix (and Mac I believe) but not Windows. Windows users can download cURL from http://curl.haxx.se/download.html. You'll have to download the appropriate executable for your operating system, and I recommend putting it in the same directory as iri.m.
- 88.93MB
云计算与大数据PPT详解
2022-12-28大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据技术是一种新一代技术和构架,...
- 254KB
详解大数据批流处理中的两大架构.docx
2022-12-14详解大数据批流处理中的两大架构.docx
- 36.95MB
2023年数据智能知识地图(完整版)-完整数据中台架构以及全貌.pdf
2023-07-1701-智能风控是一套包含智能风控方法、智能算法和工具的完整体系 02-智能风控详细体系架构 03-智能风控平台交互逻辑 04-数据层详解 05-特征画像层详解 06-模型算法层详解 07-决策应用层详解 08-未来发展趋势展望...
- 23.41MB
大数据模型实操分析.zip
2020-06-08Spark大数据技术还在如火如荼地发展,Spark中国峰会的召开,各地meetup的火爆举行,开源软件Spark也因此水涨船高,很多公司已经将Spark大范围落地并且应用。Spark使用者的需求已经从最初的部署安装、运行实例,到...
- 2.59MB
大数据平台架构
2016-12-11各大互联网公司的大数据平台架构详解