逆流而上:阿里巴巴技术成长之路
作者:阿里巴巴集团成长集编委会
出版社:电子工业出版社
ISBN:9787121327681
VIP会员免费
(仅需0.8元/天)
¥ 35.4
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
逆流而上 阿里巴巴技术成长之路.pdf 评分:
逆流而上 阿里巴巴技术成长之路.pdf 完整版本 pdf
上传时间:2019-01 大小:16.37MB
- 2.24MB
最全的java学习笔记(必看).pdf
2020-06-27大家好!我是小凯,一名在职的大学生,也是一名爱好编程的初学者。 从今天开始,将会在此平台分享一些自己对编程中遇到问题的解法,请大佬知道知道 不好勿喷 大家共同进步,共同成长。 创作辛苦,不喜勿喷
- 25.77MB
阿里Java开发完整版手册
2019-03-25阿里内部Java工程师所遵循的开发规范,涵盖编程规约、单元测试规约、异常日志规约、MySQL规约、工程规约、安全规约等,这是近万名阿里Java技术精英的经验总结. 还包含java基础泛型、反射、注解,java高级特性、设计模式等介绍等。
- 901KB
阿里巴巴码出高效v1.3.0
2018-12-06阿里巴巴java编码规范 --码处高效version1.3.0,java程序员首选
- 377KB
《阿里巴巴Java工作手册》学习笔记
2017-12-03最近浏览了一下阿里巴巴的Java开发手册,感觉内容确实非常的赞,发现了不少自己在编程中的误区,因此决定通过成文牢固掌握,文中将选取个人认为比较重要的部分进行描述与分析。”愿站在巨人的肩膀上,码出高效,码出质量“。
- 2.11MB
JAVA学习笔记(完整版)
2010-06-10作者:林信良 内容言简意赅,适合JAVA初学者 清晰PDF文档
- 15.76MB
逆流而上+阿里巴巴技术成长之路.rar
2019-08-16《逆流而上:Alibaba技术成长之路》是Alibaba集团荣耀背后的技术血泪史。本书通过分享业务运行过程中各个领域发生的典型“踩坑”案例,帮助大家快速提升自我及团队协作,学习到宝贵的处理经验及实践方案,为互联网生产系统的稳定共同努力。从基础架构、中间件、数据库、云计算、大数据等技术领域中不断积累经验,颠覆技术瓶颈,不断创新以适应不断增长的需求。 《逆流而上:Alibaba技术成长之路》主要面向互联网技术从业人员和在校师生,使读者能够通过此书基本了解阿里在各技术领域的能力,学习在如此规模下可能出现的问题以及解决方案的探讨和沉淀分享。
- 2.9MB
B站的运维成长之路.pdf
2021-10-12B站的运维成长之路.pdf
- 6.96MB
MaxCompute2.0阿里巴巴的大数据进化之路.pdf
2019-08-28阿里巴巴通用计算平台负责人/资深专家 关涛在2017杭州云栖大会中做了题为《MaxCompute 2.0: 阿里巴巴的大数据进化之路》的分享,就阿里巴巴 数据平台进化之路 MaxCompute 2.0 Moving forward做了深入的分析。
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 20.26MB
阿里巴巴逆流而上
2019-01-18本书是阿里巴巴集团荣耀背后的技术血泪史。全书通过分享业务运行过 程中各个领域发生的典型“踩坑”案例,帮助大家快速提升自我及团队协作, 学习到宝贵的处理经验及实践方案,为互联网生产系统的稳定共同努力。从 ...
- 328KB
电视低迷,而所用半导体将逆流而上.pdf
2021-08-29电视低迷,而所用半导体将逆流而上.pdf
- 830KB
互联网时代如何让中国经济逆流而上走出困境.pdf
2021-07-15互联网时代如何让中国经济逆流而上走出困境.pdf
- 2.40MB
电气设备深度报告:特斯拉:从逆流而上到一骑绝尘.pdf
2021-07-13电气设备深度报告:特斯拉:从逆流而上到一骑绝尘.pdf
- 22KB
N型喷射逆流吸附干法净化技术知识.pdf
2021-11-22N型喷射逆流吸附干法净化技术知识.pdf
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 1.26MB
IT架构师成长之路.pdf
2021-10-14IT架构师成长之路.pdf
- 7.31MB
阿里巴巴大数据实践之路-9.pdf
2022-07-03阿里巴巴大数据实践之路-9.pdf
- 289KB
循环水机械逆流式冷却塔除雾技术的研发.pdf
2021-10-17循环水机械逆流式冷却塔除雾技术的研发.pdf
- 3.44MB
石油化工:2019年中期策略:逆流而上、淘沙见金.pdf
2021-08-21石油化工:2019年中期策略:逆流而上、淘沙见金.pdf
- 1.97MB
建筑2019年投资策略:稳中有进,逆流而上.pdf
2021-07-08建筑2019年投资策略:稳中有进,逆流而上.pdf
- 285KB
基于Fluent_Matlab地下水逆流流速对热泵的影响.pdf
2021-06-28基于Fluent_Matlab地下水逆流流速对热泵的影响.pdf
- 1.58MB
建筑行业投资策略:稳中有进,逆流而上-0102-民生证券-33页.pdf
2023-07-28建筑行业投资策略:稳中有进,逆流而上-0102-民生证券-33页.pdf
- 4.20MB
阿里巴巴神龙(X-Dragon)架构演进之路.pdf
2020-07-172019云栖大会-阿里巴巴神龙(X-Dragon)架构演进之路,让我们一起来窥探阿里巴巴虚拟化架构飞升之路。
- 1.72MB
藏经阁-阿里巴巴云化架构创新之路.pdf
2023-08-30藏经阁-阿里巴巴云化架构创新之路.pdf
- 6.41MB
藏经阁-阿里巴巴监控之路.pdf
2023-08-28藏经阁-阿里巴巴监控之路.pdf
- 11KB
共赢的生态链——阿里巴巴的商业生态系统之路.pdf
2021-11-27共赢的生态链——阿里巴巴的商业生态系统之路.pdf
- 349KB
阿里巴巴大数据之路-大数据领域建模综述.pdf
2022-12-24阿⾥巴巴⼤数据之路-⼤数据领域建模综述 阿⾥巴巴⼤数据之道-⼤数据领域建模综述 为什么要数据建模? Linux 的创始⼈ Torvalds 有⼀段关于"什么才是优秀程序员"的话:"烂程序员关⼼的是代码,好程序员关⼼的 是数据 结构和它们之间的关系。" 数据建模的好处 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。 成本 : 良好的数据模型能极⼤地减少不必要的数据冗余,也能实 现计算结果复⽤,极⼤地降低⼤数据系统中的存储和计算成本。 效率 :良好的数据模型能极⼤地改善⽤户使⽤数据的体验,提⾼ 使⽤数据的效率。 质量 : 良好的数据模型能改善数据统计⼝径的不⼀致性,减少数 据计算错误的可能性。 OLTP 和 OLAP 建模区别 OLTP 主要数据操作是随机读写 主要采⽤满⾜ 3NF 的实体关系模型存储数据 在事务处理中解决数据的冗余和⼀ 致性问题 OLAP 主要数据操作是批量读写 事务处理中 的⼀致性不是 OLAP 所关注的 关注数据的整合,以及在⼀次性 的复杂⼤数据查询和处理中的性能 建模⽅法论 ER模型 简述 数据仓库之⽗ Bill lnmon 提出的建模⽅法是从全企业的⾼度设计⼀ 个 3NF 模型,⽤实体关系( Entity Relationship, ER)模型 描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业⾓度⾯向主题 的抽象,⽽不是针对某个具体 业务流程的实体对象关系的抽象。 特点 需要全⾯了解企业业务和数据。 实施周期⾮常长。 对建模⼈员的能⼒要求⾮常⾼。 建模步骤 ⾼层模型 ⼀个⾼度抽象的模型,描述主要的主题以及主题间的 关系,⽤于描述企业的业务总体概况。 中层模型 在⾼层模型的基础上,细化主题的数据项。 物理模型(也叫底层模型) 在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进⾏物理属性的设计,也可能做⼀ 些表的合并、分区的设计 等。 维度模型 简述 维度模型是数据仓库领域的 Ralph Kimball ⼤师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to Dimensional Modeling 是 数据仓库⼯程领域最流⾏的数据仓库建模的经典。 特点 从分析决策的需求出发构建模型,为分析需求服务 具有较好的⼤规模复 杂查询的响应性能 其典型的代表是星形模型,以及在⼀些特殊场景下 使⽤的雪花模型 模型分类 雪花模型 星型模型 星座模型 建模步骤 选择需要进⾏分析决策的业务过程 业务过程可以是单个业务事 件,⽐如交易的⽀付、退款等;也可以是某个事件的状态,⽐如 当前的账户余额等;还可以是⼀ 系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发⽣情况,还是当前状态, 或是事件流转效率。 选择粒度 在事件分析中,我们要预判所有分析需要细分的程度,从⽽决定选择的粒度。粒度是维度的⼀个组合。 识别维表 选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,⽤于分析时进⾏分组和筛选。 选择事实 确定分析需要衡量的指标。 Data Vault 模型 简述 Data Vault 是 Dan Linstedt 发起创建的⼀种模型,它是 ER 模型的衍 ⽣,其设计的出发点也是为了实现数据的整合,但不能直 接⽤于数据分 析决策。 特点 可审计的基础数据层 数据的历史 性、可追溯性和原⼦ ⽽不要求对数据进⾏过度的⼀致性处理和整合 基于主题概念将企业数据进⾏结构化组织 组成部分 Hub 是企业的核⼼业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。 Link 代表 Hub 之间的关系。这⾥与 ER 模型最⼤的区别是将关 系作为⼀个独⽴的单元抽象,可以提升模型的扩展性。它可以直 接描述 1 : 1 、 l :n 和 n:n 的关系,⽽不需要做任何变更。它由 Hub 的代理键、装载时间、数据来源组成。 Satellite 是 Hub 的详细描述内容, ⼀个 Hub 可以有多个 Satellite。 它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述 信 息组成。 模型实例 Anchor 模型 简介 Anchor 对 Data Vault 模型做了进⼀步规范化处理, Lars. Ri:innback 的初衷是设计⼀个⾼度可扩展的模型,其核⼼思想是所有 的扩展只是添 加⽽不是修改,因此将模型规范到 6NF,基本变成了 k-v 结构化模型。 组成部分 Anchors 类似于 Data Vault 的 Hub ,代表业务实体,且只有主键。 Attributes 功能类似于 Data Vault 的 Satellite