Hadoop大数据实战权威指南(第2版)
电子书推荐
-
大数据之路:阿里巴巴大数据实践 评分:
第1章 总述1 第1篇 数据技术篇 第2章 日志采集8 2.1 浏览器的页面日志采集8 2.1.1 页面浏览日志采集流程9 2.1.2 页面交互日志采集14 2.1.3 页面日志的服务器端清洗和预处理15 2.2 无线客户端的日志采集16 2.2.1 页面事件17 2.2.2 控件点击及其他事件18 2.2.3 特殊场景19 2.2.4 H5 & Native日志统一20 2.2.5 设备标识22 2.2.6 日志传输23 2.3 日志采集的挑战24 2.3.1 典型场景24 2.3.2 大促保障26 第3章 数据同步29 3.1 数据同步基础29 3.1.1 直连同步30 3.1.2 数据文件同步30 3.1.3 数据库日志解析同步31 3.2 阿里数据仓库的同步方式35 3.2.1 批量数据同步35 3.2.2 实时数据同步37 3.3 数据同步遇到的问题与解决方案39 3.3.1 分库分表的处理39 3.3.2 高效同步和批量同步41 3.3.3 增量与全量同步的合并42 3.3.4 同步性能的处理43 3.3.5 数据漂移的处理45 第4章 离线数据开发48 4.1 数据开发平台48 4.1.1 统一计算平台49 4.1.2 统一开发平台53 4.2 任务调度系统58 4.2.1 背景58 4.2.2 介绍60 4.2.3 特点及应用65 第5章 实时技术68 5.1 简介69 5.2 流式技术架构71 5.2.1 数据采集72 5.2.2 数据处理74 5.2.3 数据存储78 5.2.4 数据服务80 5.3 流式数据模型80 5.3.1 数据分层80 5.3.2 多流关联83 5.3.3 维表使用84 5.4 大促挑战&保障86 5.4.1 大促特征86 5.4.2 大促保障88 第6章 数据服务91 6.1 服务架构演进91 6.1.1 DWSOA92 6.1.2 OpenAPI93 6.1.3 SmartDQ94 6.1.4 统一的数据服务层96 6.2 技术架构97 6.2.1 SmartDQ97 6.2.2 iPush100 6.2.3 Lego101 6.2.4 uTiming102 6.3 实践103 6.3.1 性能103 6.3.2 稳定性111 第7章 数据挖掘116 7.1 数据挖掘概述116 7.2 数据挖掘算法平台117 7.3 数据挖掘中台体系119 7.3.1 挖掘数据中台120 7.3.2 挖掘算法中台122 7.4 数据挖掘案例123 7.4.1 用户画像123 7.4.2 互联网反作弊125 第2篇 数据模型篇 第8章 大数据领域建模综述130 8.1 为什么需要数据建模130 8.2 关系数据库系统和数据仓库131 8.3 从OLTP和OLAP系统的区别看模型方法论的选择132 8.4 典型的数据仓库建模方法论132 8.4.1 ER模型132 8.4.2 维度模型133 8.4.3 Data Vault模型134 8.4.4 Anchor模型135 8.5 数据模型实践综述136 第9章 数据整合及管理体系138 9.1 概述138 9.1.1 定位及价值139 9.1.2 体系架构139 9.2 规范定义140 9.2.1 名词术语141 9.2.2 指标体系141 9.3 模型设计148 9.3.1 指导理论148 9.3.2 模型层次148 9.3.3 基本原则150 9.4 模型实施152 9.4.1 业界常用的模型实施过程152 9.4.2 OneData实施过程154 第10章 维度设计159 10.1 维度设计基础159 10.1.1 维度的基本概念159 10.1.2 维度的基本设计方法160 10.1.3 维度的层次结构162 10.1.4 规范化和反规范化163 10.1.5 一致性维度和交叉探查165 10.2 维度设计高级主题166 10.2.1 维度整合166 10.2.2 水平拆分169 10.2.3 垂直拆分170 10.2.4 历史归档171 10.3 维度变化172 10.3.1 缓慢变化维172 10.3.2 快照维表174 10.3.3 极限存储175 10.3.4 微型维度178 10.4 特殊维度180 10.4.1 递归层次180 10.4.2 行为维度184 10.4.3 多值维度18 10.4.4 多值属性187 10.4.5 杂项维度188 第11章 事实表设计190 11.1 事实表基础190 11.1.1 事实表特性190 11.1.2 事实表设计原则191 11.1.3 事实表设计方法193 11.2 事务事实表196 11.2.1 设计过程196 11.2.2 单事务事实表200 11.2.3 多事务事实表202 11.2.4 两种事实表对比206 11.2.5 父子事实的处理方式208 11.2.6 事实的设计准则209 11.3 周期快照事实表210 11.3.1 特性211 11.3.2 实例212 11.3.3 注意事项217 11.4 累积快照事实表218 11.4.1 设计过程218 11.4.2 特点221 11.4.3 特殊处理223 11.4.4 物理实现225 11.5 三种事实表的比较227 11.6 无事实的事实表228 11.7 聚集型事实表228 11.7.1 聚集的基本原则229 11.7.2 聚集的基本步骤229 11.7.3 阿里公共汇总层230 11.7.4 聚集补充说明234 第3篇 数据管理篇 第12章 元数据236 12.1 元数据概述236 12.1.1 元数据定义236 12.1.2 元数据价值237 12.1.3 统一元数据体系建设238 12.2 元数据应用239 12.2.1 Data Profile239 12.2.2 元数据门户241 12.2.3 应用链路分析241 12.2.4 数据建模242 12.2.5 驱动ETL开发243 第13章 计算管理245 13.1 系统优化245 13.1.1 HBO246 13.1.2 CBO249 13.2 任务优化256 13.2.1 Map倾斜257 13.2.2 Join倾斜261 13.2.3 Reduce倾斜269 第14章 存储和成本管理275 14.1 数据压缩275 14.2 数据重分布276 14.3 存储治理项优化277 14.4 生命周期管理278 14.4.1 生命周期管理策略278 14.4.2 通用的生命周期管理矩阵280 14.5 数据成本计量283 14.6 数据使用计费284 第15章 数据质量285 15.1 数据质量保障原则285 15.2 数据质量方法概述287 15.2.1 消费场景知晓289 15.2.2 数据加工过程卡点校验292 15.2.3 风险点监控295 15.2.4 质量衡量299 第4篇 数据应用篇 第16章 数据应用304 16.1 生意参谋305 16.1.1 背景概述305 16.1.2 功能架构与技术能力307 16.1.3 商家应用实践310 16.2 对内数据产品平台313 16.2.1 定位313 16.2.2 产品建设历程314 16.2.3 整体架构介绍317 附录A 本书插图索引320
上传时间:2018-01 大小:85.9MB
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 3.77MB
阿里巴巴大数据实践之路.ppt
2022-05-26阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt
- 104.86MB
阿里巴巴 大数据之路
2019-04-29阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
- 16.69MB
阿里巴巴的大数据实战总结大数据实战.zip
2020-08-16阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中...
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 106B
干货 | 36个大数据文档PDF开放下载-附件资源
2021-03-05干货 | 36个大数据文档PDF开放下载-附件资源
- 35KB
阿里大数据
2013-11-03阿里去IOE,实现海量数据存储的方式,即nosql 数据库的使用。
- 3.86MB
阿里巴巴大数据研发体系
2017-10-10介绍阿里巴巴大数据研发体系的结构,阿里巴巴大数据的研发技术架构以及方向等内容
- 1.8MB
携程大数据开发平台实践
2019-02-27携程大数据开发平台实践 一个非常好的学习大数据开发的资料
- 97.61MB
阿里巴巴大数据实践
2019-04-12大数据《《大数据之路:阿里巴巴大数据实践》》,高清
- 420KB
阿里大数据之路.xmind
2020-07-10该资源包含了《大数据之路-阿里巴巴大数据》这本书的整体思维导图,并且按照自己从业经验进行归纳整理,囊括了:数据采集,数据计算,数据模型,数据管理,数据生命周期的相关知识点
- 89.37MB
GreenPLum6-1.pdf
2019-12-17GreenPlum6官方文档中文翻译,如下为节选: 有关配置,管理和监控Greenplum数据库安装以及管理,监控和使用数 据库的信息。该指南还包含有关Greenplum数据库架构和概念(例如 并行处理)的信息。 Greenplum数据库概念 这一节给出了Greenplum数据库组件和特性的概述,例如高可用 性、并行数据装载特性以及管理工具。 管理一个Greenplum系统 这一节描述了一个Greenplum数据库系统管理员所执行的基本系统 管理任务。 管理Greenplum数据库访问 保护Greenplum数据库,包括通过网络配置、数据库用户身份验 证、加密来保护对数据库的访问。 定义数据库对象 这一节包括Greenplum数据库中的数据定义语言(DDL)以及如何 创建和管理数据库对象。 分布与倾斜 Greenplum数据库依赖于跨节点的均匀数据分布。 插入, 更新, 和删除数据 这一节提供了Greenplum数据库中有关操纵数据和并发访问的信 息。 查询数据 本主题提供在Greenplum数据库中使用SQL的信息。 使用外部数据 外部表和外表都可以访问存储在Greenplum数据库之外的数据源中 的数据,就好像数据存储在常规数据库表中一样。您可以从外部表 和外表读取和写入数据。 装载和卸载数据 这一节中的主题描述了Greenplum数据库中将数据装载进来和写出 去的方法,以及如何格式化数据文件。 性能管理 这一节的内容是Greenplum数据库的性能管理,其中包含了如何监 控,以及如何通过配置工作量来进行资源调用的优先级管理。
- 211.58MB
postgresql和greenplum学习资料
2019-07-30整理了postgresql和greenplum学习资料,了解pg数据库原理和分布式数据库
- 231KB
Java第十五届蓝桥杯大赛软件JavaB组真题
2024-04-14【Java】第十五届蓝桥杯大赛软件JavaB组真题
- 38.20MB
SwitchHosts
2024-03-06切换host工具
- 55.2MB
安卓期末大作业(AndroidStudio开发),垃圾分类助手app,分为前台后台,代码有注释,均能正常运行
2023-06-04安卓期末大作业-垃圾分类助手(免积分下载) 压缩包内包含源代码,项目文档,apk文件,运行各个界面截图。app使用的是sqlite数据库,使用的核心类及其组件:Base Adapter,Fragment,View Pager,Alert Dialog.Builder,Option,Animation Draw able(关键帧动画),Media Player(视频),Count Down Timer(倒计时 广告页用),Spinner等 该分类助手的功能是管理员先登录进入后台界面,将数据录入数据库,管理员可进行增删改查操作,用户可在前台页面通过垃圾分类查垃圾也可通过垃圾查分类,可以浏览后台管理员录到数据库中的新闻。 该分类助手在上传头像时是通过跳转到手机图库选择照片,然后保存的时候是通过该图片的uri录入数据库,显示图片则是从数据库读取uri并显示。 以上所述功能均实现正常 详见 https://blog.csdn.net/weixin_59538558/article/details/131029604
- 6.98MB
Notepad++安装包
2022-07-28Notepad++中文版是一款非常有特色的编辑器,是开源软件,可以免费使用。 Notepad++中文版是 Windows操作系统下的一套文本编辑器(软件版权许可证: GPL)。Notepad++有完整的中文化接口及支持多国语言编写的功能(UTF8技术)。Notepad++中文版功能比 Windows 中的 Notepad(记事本)强大。Notepad++除了可以用来制作一般的纯文字说明文件,也十分适合编写计算机程序代码。Notepad++中文版不仅有语法高亮度显示,也有语法折叠功能,并且支持宏以及扩充基本功能的外挂模组。
- 734KB
2024北森能力测评题库.7z
2024-03-09北森能力测评
- 39.41MB
微信小程序源码-合集1.rar
2020-09-04【微信小程序-源码合集】该合集主要整理 包含交友互动、节日祝福、金融行业、旅游行业、论坛系列、美容行业!
- 9.42MB
Java面试八股文2023最新版
2023-03-14工作了一年多想跳槽了,自己整理的Java面试八股文 java面试题 2023最新整理 java八股文 高频面试题 里边包含了很多领域的java se基础、springboot springcloud MyBatis、ZooKeeper、Dubbo、Elasticsearch、Memcached、 Redis、MySQL、Spring、tomcat、Git、 Linux Nginx,以及软实力等等技术栈 希望对你们有帮助! 用最少的money换取最新最全的面试题集!
- 12.58MB
Linux Centos7 升级最新版OpenSSH-9.6p1 有脚本(支持离线)
2024-01-03包含升级的rpm文件 openssh-9.6p1.tar.gz openssl-1.1.1q.tar.gz zlib-1.3.tar.gz 以及升级脚本 sshupdate2.sh
- 192.94MB
JDK1.8 windows 64位
2022-07-14JDK1.8 windows 64位
- 709KB
ruoyi-vue-pro 芋道源码项目的表结构
2023-11-29芋道源码项目的表结构。 包含工作流、商城、支付、微信等模块的表结构,直接运行即可
- 899.79MB
myeclipse 10.7.1 windows 安装包
2022-03-15myeclipse 10.7.1 windows 安装包