电子书推荐
-
《大数据之路 阿里巴巴大数据实践》.zip 评分:
本篇扫描版,提供详细的书签(细到二级目录)和md笔记文件! 阿里巴巴数据技术及产品部著 定位于阿里集团数据中台,为阿里生态内外的业 务、用户、中小企业提供全链蹈、全渠道的数据 服务。作为阿里大数据战略的核心践行者, 致力 于 经过多年的实践,数据技术及产晶部已经构建了 从底层的数据采集、数据处理,到挖掘算法、数 据应用服务以及数据产目的全链路、标准化的大 数据体系。 如何建设高效的数据模型和体系,使数据易用,避免重复建设和数 据不一致性,保证数据的规范性;如何提供高效易用的数据开发工具z 如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消 耗z 如何保证数据服务的稳定,保证其性能z 如何设计有效的数据产品 高效赋能于外部客户和内部员工……这些都给大数据系统的建设提出 了更多复杂的要求。
上传时间:2019-06 大小:85.55MB
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 16.69MB
阿里巴巴的大数据实战总结大数据实战.zip
2020-08-16阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
- 119.84MB
大数据大创新-阿里巴巴云上数据中台之道.zip
2021-08-20大数据大创新-阿里巴巴云上数据中台之道
- 538KB
阿里巴巴大数据竞赛.zip
2023-10-22阿里巴巴大数据竞赛.zip
- 14.33MB
阿里巴巴大数据智能技术.zip
2021-10-25阿里巴巴大数据智能技术
- 119.84MB
【精品】大数据大创新-阿里巴巴云上数据中台之道.rar
2021-07-21【精品】大数据大创新-阿里巴巴云上数据中台之道.rar
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 1.39MB
阿里巴巴大数据解决方案.pdf
2015-01-29阿里巴巴大数据解决方案,包括Hadoop集群服务模式、跨机房方方案、ODPS简介
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 1.53MB
阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
2018-02-26阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
- 5.83MB
MaxCompute2.0阿里巴巴的大数据进化之路.zip
2021-10-05MaxCompute2.0阿里巴巴的大数据进化之路.zip
- 46KB
阿里巴巴天池大数据竞赛.zip
2024-01-01全国大学生电子设计竞赛(National Undergraduate Electronics Design Contest),试题,解决方案及源码。计划或参加电赛的同学可以用来学习提升和参考。程序均是实战案例,经过测试可直接运行。...
- 16.71MB
关于阿里云:阿里巴巴大数据及AI实战的介绍说明.zip
2021-11-07关于阿里云:阿里巴巴大数据及AI实战的介绍说明.zip
- 13.29MB
阿里巴巴人工智能驱动大数据.zip
2021-10-25阿里巴巴人工智能驱动大数据
- 3.5MB
海量大数据平台运维智能化实践_阿里巴巴.zip
2021-10-25海量大数据平台运维智能化实践_阿里巴巴
- 10.61MB
阿里巴巴数据中台实践PPT
2019-10-16阿里巴巴数据中台实践PPT以及对应的解读文章 读透《阿里巴巴数据中台实践》,其到底有什么高明之处? - 阿里云栖社区 - SegmentFault 思否 https://segmentfault.com/a/1190000020342503
- 2.41MB
2019_阿里巴巴数据中台实践分享.pdf
2020-03-302019_阿里巴巴数据中台实践分享
- 10.70MB
阿里巴巴数据中台实践(电力).pptx
2019-08-13结合XX电力行业应用场景,介绍了阿里巴巴数据中台的实践和沉淀过程,便于大家立体化的了解数据中台
- 420KB
阿里大数据之路.xmind
2020-07-10该资源包含了《大数据之路-阿里巴巴大数据》这本书的整体思维导图,并且按照自己从业经验进行归纳整理,囊括了:数据采集,数据计算,数据模型,数据管理,数据生命周期的相关知识点
- 138.81MB
集团企业大数据治理平台数据安全治理规划总体方案PPT(28份).zip
2023-04-30企业大数据治理管理平台解决方案.pptx 园区大数据治理解决方案.pptx 大数据安全规划总体方案.pptx 大数据平台数据治理与建设方案.pptx ...阿里巴巴数据治理实践.pptx 集团企业大数据治理平台解决方案.ppt
- 31KB
阿里巴巴天池大数据-商铺定位 第9名.zip
2023-11-07大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、...
- 6.30MB
大数据demo工程-阿里巴巴口碑商家客流量分析系统.zip
2023-11-07大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、竞赛,含过程文档、源代码等,供参考 大数据项目、...
- 86.98MB
精选数据治理体系平台建设解决方案PPT资料(20份).zip
2023-03-13企业大数据治理管理平台解决方案.pptx 企业数据治理现状调查报告.pptx 华为数据治理之旅.pptx 大数据治理平台建设与应用解决方案.pptx 大数据治理平台建设解决方案.pptx ...阿里巴巴数据治理实践.pptx
- 2.40MB
阿里巴巴中文站架构设计实践(何崚).zip
2017-03-23阿里巴巴中文站架构设计实践(何崚),详细请下载查看。 本资料共包含以下附件: 阿里巴巴中文站架构设计实践(何崚).zip