Hadoop大数据实战权威指南(第2版)
电子书推荐
-
大数据之路:阿里巴巴大数据实践(带详细书签) PDF 下载 评分:
在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——阿里巴巴大数据实践》就是在此背景下完成的。本书中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。 第1章 总述 第1篇 数据技术篇 第2章 日志采集 2.1 浏览器的页面日志采集 2.1.1 页面浏览日志采集流程 2.1.2 页面交互日志采集 2.1.3 页面日志的服务器端清洗和预处理 2.2 无线客户端的日志采集 2.2.1 页面事件 2.2.2 控件点击及其他事件 2.2.3 特殊场景 2.2.4 H5 & Native日志统一 2.2.5 设备标识 2.2.6 日志传输 2.3 日志采集的挑战 2.3.1 典型场景 2.3.2 大促保障 第3章 数据同步 3.1 数据同步基础 3.1.1 直连同步 3.1.2 数据文件同步 3.1.3 数据库日志解析同步 3.2 阿里数据仓库的同步方式 3.2.1 批量数据同步 3.2.2 实时数据同步 3.3 数据同步遇到的问题与解决方案 3.3.1 分库分表的处理 3.3.2 高效同步和批量同步 3.3.3 增量与全量同步的合并 3.3.4 同步性能的处理 3.3.5 数据漂移的处理 第4章 离线数据开发 4.1 数据开发平台 4.1.1 统一计算平台 4.1.2 统一开发平台 4.2 任务调度系统 4.2.1 背景 4.2.2 介绍 4.2.3 特点及应用 第5章 实时技术 5.1 简介 5.2 流式技术架构 5.2.1 数据采集 5.2.2 数据处理 5.2.3 数据存储 5.2.4 数据服务 5.3 流式数据模型 5.3.1 数据分层 5.3.2 多流关联 5.3.3 维表使用 5.4 大促挑战&保障 5.4.1 大促特征 5.4.2 大促保障 第6章 数据服务 6.1 服务架构演进 6.1.1 DWSOA 6.1.2 OpenAPI 6.1.3 SmartDQ 6.1.4 统一的数据服务层 6.2 技术架构 6.2.1 SmartDQ 6.2.2 iPush 6.2.3 Lego 6.2.4 uTiming 6.3 最佳实践 6.3.1 性能 6.3.2 稳定性 第7章 数据挖掘 7.1 数据挖掘概述 7.2 数据挖掘算法平台 7.3 数据挖掘中台体系 7.3.1 挖掘数据中台 7.3.2 挖掘算法中台 7.4 数据挖掘案例 7.4.1 用户画像 7.4.2 互联网反作弊 第2篇 数据模型篇 第8章 大数据领域建模综述 8.1 为什么需要数据建模 8.2 关系数据库系统和数据仓库 8.3 从OLTP和OLAP系统的区别看模型方法论的选择 8.4 典型的数据仓库建模方法论 8.4.1 ER模型 8.4.2 维度模型 8.4.3 Data Vault模型 8.4.4 Anchor模型 8.5 阿里巴巴数据模型实践综述 第9章 阿里巴巴数据整合及管理体系 9.1 概述 9.1.1 定位及价值 9.1.2 体系架构 9.2 规范定义 9.2.1 名词术语 9.2.2 指标体系 9.3 模型设计 9.3.1 指导理论 9.3.2 模型层次 9.3.3 基本原则 9.4 模型实施 9.4.1 业界常用的模型实施过程 9.4.2 OneData实施过程 第10章 维度设计 10.1 维度设计基础 10.1.1 维度的基本概念 10.1.2 维度的基本设计方法 10.1.3 维度的层次结构 10.1.4 规范化和反规范化 10.1.5 一致性维度和交叉探查 10.2 维度设计高级主题 10.2.1 维度整合 10.2.2 水平拆分 10.2.3 垂直拆分 10.2.4 历史归档 10.3 维度变化 10.3.1 缓慢变化维 10.3.2 快照维表 10.3.3 极限存储 10.3.4 微型维度 10.4 特殊维度 10.4.1 递归层次 10.4.2 行为维度 10.4.3 多值维度 10.4.4 多值属性 10.4.5 杂项维度 第11章 事实表设计 11.1 事实表基础 11.1.1 事实表特性 11.1.2 事实表设计原则 11.1.3 事实表设计方法 11.2 事务事实表 11.2.1 设计过程 11.2.2 单事务事实表 11.2.3 多事务事实表 11.2.4 两种事实表对比 11.2.5 父子事实的处理方式 11.2.6 事实的设计准则 11.3 周期快照事实表 11.3.1 特性 11.3.2 实例 11.3.3 注意事项 11.4 累积快照事实表 11.4.1 设计过程 11.4.2 特点 11.4.3 特殊处理 11.4.4 物理实现 11.5 三种事实表的比较 11.6 无事实的事实表 11.7 聚集型事实表 11.7.1 聚集的基本原则 11.7.2 聚集的基本步骤 11.7.3 阿里公共汇总层 11.7.4 聚集补充说明 第3篇 数据管理篇 第12章 元数据 12.1 元数据概述 12.1.1 元数据定义 12.1.2 元数据价值 12.1.3 统一元数据体系建设 12.2 元数据应用 12.2.1 Data Profile 12.2.2 元数据门户 12.2.3 应用链路分析 12.2.4 数据建模 12.2.5 驱动ETL开发 第13章 计算管理 13.1 系统优化 13.1.1 HBO 13.1.2 CBO 13.2 任务优化 13.2.1 Map倾斜 13.2.2 Join倾斜 13.2.3 Reduce倾斜 第14章 存储和成本管理 14.1 数据压缩 14.2 数据重分布 14.3 存储治理项优化 14.4 生命周期管理 14.4.1 生命周期管理策略 14.4.2 通用的生命周期管理矩阵 14.5 数据成本计量 14.6 数据使用计费 第15章 数据质量 15.1 数据质量保障原则 15.2 数据质量方法概述 15.2.1 消费场景知晓 15.2.2 数据加工过程卡点校验 15.2.3 风险点监控 15.2.4 质量衡量 第4篇 数据应用篇 第16章 数据应用 16.1 生意参谋 16.1.1 背景概述 16.1.2 功能架构与技术能力 16.1.3 商家应用实践 16.2 对内数据产品平台 16.2.1 定位 16.2.2 产品建设历程 16.2.3 整体架构介绍 附录A 本书插图索引
上传时间:2018-04 大小:97.67MB
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 3.77MB
阿里巴巴大数据实践之路.ppt
2022-05-26阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt
- 16.69MB
阿里巴巴的大数据实战总结大数据实战.zip
2020-08-16阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
- 104.86MB
阿里巴巴 大数据之路
2019-04-29阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
- 1.39MB
阿里巴巴大数据解决方案.pdf
2015-01-29阿里巴巴大数据解决方案,包括Hadoop集群服务模式、跨机房方方案、ODPS简介
- 211.58MB
postgresql和greenplum学习资料
2019-07-30整理了postgresql和greenplum学习资料,了解pg数据库原理和分布式数据库
- 106B
干货 | 36个大数据文档PDF开放下载-附件资源
2021-03-05干货 | 36个大数据文档PDF开放下载-附件资源
- 220KB
3.大数据生态圈.pdf
2019-07-263.大数据生态圈.pdf
- 5.74MB
大数据时代下的数据连接.pdf
2019-08-04上海技术峰会,大数据时代下的数据连接
- 119.84MB
大数据大创新-阿里巴巴云上数据中台之道.zip
2021-08-20大数据大创新-阿里巴巴云上数据中台之道
- 2.36MB
大数据时代的科学数据战略(卢东明) 高清完整中文版PDF下载
2018-02-26大数据时代的科学数据战略(卢东明) 高清完整中文版PDF下载
- 138.65MB
大数据技术原理与应用
2019-04-17大数据技术 大数据技术
- 23.16MB
公安大数据整体建设方案.pdf
2019-08-07公安大数据整体建设方案
- 79KB
日志监控系统源码
2019-04-17日志监控告警系统的设计与实现,基于的日志进行监控,监控需要一定规则,对触发监控规则的日志信息进行告警,告警的方式,是短信和邮件。
- 279KB
用户画像实战应用.pdf
2019-11-25用户画像?听起来很简单啊!不就是用户的性别,年龄,身高体重,学历收入,家庭 住址,消费积分,登陆访问一类的指标吗!列一堆数就行了,我们的客户男性比例40%, 年龄35岁以下占比50%,本科占比30%,个人月收入5000以上占比60%,未婚比例50%,月 均消费3500元,最长购买的三种组合是AB,AC,BC,每天8点是登陆高峰,你看看,我 才干了1个月数据分析就做出了这么全面的用户画像!我多厉害!写报告的时候我还贴了两 个典型用户的照片呢,好崇拜我自己。还有什么好聊的?
- 6.17MB
流处理框架Stream Processing with Apache Flink.zip
2019-05-28现在大数据处理里面比较公认的流处理框架,Stream Processing with Apache Flink;
- 2.46MB
最简单的概念入门大数据ppt
2019-04-07大数据详情简介,可以说是入门大概的了解大数据,很好的掌握概念
- 42.31MB
基于python开发的企业名录查询软件v3.2.1下载
2021-04-22这个软件是通过scrapy爬虫框架结合代理IP池再加上request模拟请求技术以及验证码识别技术,可以做到日更新采集全国新工商信息。采集的数据自动存储在mysql数据库表里,可下载全量1.8亿多企业工商基本信息和36维度的详细信息.支持sql和excel导出数据包格式。
- 42.9MB
基于python开发的中国工商企业数据库免费软件v2.3.5下载
2021-04-26这个软件是通过scrapy爬虫框架结合代理IP池再加上request模拟请求技术以及验证码识别技术,可以做到日更新采集全国新工商信息。采集的数据自动存储在mysql数据库表里,可下载全量1.8亿多企业工商基本信息和36维度的详细信息.支持sql和excel导出数据包格式。
- 42.31MB
基于python开发的外贸数据爬虫系统v5.0下载
2021-04-22这是基于python爬虫技术编程写的外贸数据爬虫系统,实现全球海关、关单、外贸数据的爬取。框架采用python多线程技术+request+代理IP池,实现了每天几十亿家采购商供应商外贸和关单数据实时采集和更新。
- 25.16MB
购物数据流处理+可视化实时数据大屏.rar
2020-01-02整个项目主要实现了从模拟生成购物数据,到通过kafka传输数据,到通过storm的高级事务处理trident来进行实时流数据处理,最后,将实时生成的统计数据进行实时的可视化,生成类似天猫双十一实时数据大屏的可视化效果
- 786KB
大数据实时数据采集架构
2020-11-13大数据实时数据采集架构
- 1.59MB
尚硅谷大数据技术之Storm
2019-03-08尚硅谷2017年大数据培训实训所用的讲解,培训所用到的ppt
- 147B
基于Storm构建实时热力分布项目实战.txt
2019-05-09基于Storm构建实时热力分布项目实战,欢迎小伙伴们下载哦