大数据架构详解:从数据获取到深度学习
作者:朱洁、罗华霖
出版社:电子工业出版社
ISBN:9787121300004
VIP会员免费
(仅需0.8元/天)
¥ 27.6
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
大数据架构商业之路:从业务需求到技术方案.pdf(中文高清版) 评分:
目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。
上传时间:2017-11 大小:59.76MB
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 221.38MB
《大数据架构商业之路从业务需求到技术方案》.pdf
2019-05-23《大数据架构商业之路从业务需求到技术方案》
- 614KB
业务架构、应用架构、数据架构和技术架构
2021-02-24企业总体架构是什么?有什么用?具体怎么做?以我曾任职的公司为案例,一起来探讨这个问题。这家公司当时有200位研发人员和200多台服务器,我刚进这家公司时,系统已经玩不下去了,总是出现各种问题,例如日常发布系统时或访问量稍微过大时,系统就会出现很多故障,而且找不到故障发生的根本原因。我进公司后主要的任务就是对这个系统进行升级改造,花了一个半月的时间写了份企业总体架构文档,文档共有124页,直接指导了之后的技术改造,下图是那份文档的目录,文末有相关资料下载地址。企业商务模型的内容主要包括主营业务、商务模式、商务主体、竞品分析、组织架构、商务运作模型和业务流程等。主营业务即公司做什么业务。商业模式即
- 548KB
大数据管理:概念、技术与挑战.pdf
2023-07-18大数据管理:概念、技术与挑战.pdf 大数据管理:概念、技术与挑战.pdf 大数据管理:概念、技术与挑战.pdf 大数据管理:概念、技术与挑战.pdf 大数据管理:概念、技术与挑战.pdf 大数据管理:概念、技术与挑战.pdf ...
- 59.75MB
大数据架构商业之路
2019-06-26大数据架构商业之路-从业务需求到技术方案,大数据架构、大数据思想介绍。
- 907KB
大数据时代中学生数据素养:内涵、价值与构成维度.pdf
2021-07-07大数据时代中学生数据素养:内涵、价值与构成维度.pdf
- 62KB
重庆工业互联网行业大数据架构师岗位介绍JD模板.pdf
2022-06-20重庆工业互联网行业大数据架构师岗位介绍JD模板.pdf重庆工业互联网行业大数据架构师岗位介绍JD模板.pdf重庆工业互联网行业大数据架构师岗位介绍JD模板.pdf重庆工业互联网行业大数据架构师岗位介绍JD模板.pdf重庆工业...
- 1.3MB
大数据下的商业伦理:电商不诚信行为分析.pdf
2021-07-08大数据下的商业伦理:电商不诚信行为分析.pdf
- 14.79MB
企业架构框架-TOGAF
2017-11-10架构是针对某种特定目标系统的具有体系性的、普遍性的问题而提供的通用的解决方案,架构往往是对复杂形态的一种共性的体系抽象。 业务架构体系是针对企事业信息管理系统中具有体系的、普遍性的问题而提供的通用解决方案,更确切的说,是基于业务导向和驱动的架构来理解、分析、设计、构建、集成、扩展、运行和管理信息系统,比如业务架构体系认为一个信息系统必须由组织机构、业务流程、业务信息、业务功能、和业务语义等层次构成。
- 21.61MB
架构实战PDF
2018-07-01架构师实战。如何成为优秀的架构师,架构师的必读经典之作。
- 3.50MB
京东应用架构设计.pdf
2017-01-22京东应用架构设计
- 2.98MB
京东应用架构设计与治理.pdf
2020-07-13大型网站设计方案,设计原则;非常好,值得借鉴;架构愿景,业务架构,应用架构,数据架构,技术架构,618经验
- 3.56MB
大数据平台架构.pdf
2021-10-02大数据平台架构.pdf
- 20.61MB
2022年中国商业查询平台行业:大数据赋能信用风险防控.pdf
2022-04-012022年中国商业查询平台行业:大数据赋能信用风险防控.pdf 2022年中国商业查询平台行业:大数据赋能信用风险防控.pdf 2022年中国商业查询平台行业:大数据赋能信用风险防控.pdf 2022年中国商业查询平台行业:大数据...
- 4.2MB
发力数字经济:大数据“徐州模式”渐入佳境.pdf
2021-07-05发力数字经济:大数据“徐州模式”渐入佳境.pdf
- 726KB
大数据架构和模式(三)理解大数据解决方案的架构层.pdf
2022-06-06大数据架构和模式(三)理解大数据解决方案的架构层.pdf大数据架构和模式(三)理解大数据解决方案的架构层.pdf大数据架构和模式(三)理解大数据解决方案的架构层.pdf大数据架构和模式(三)理解大数据解决方案的架构层.pdf...
- 1.6MB
大数据落地应用:从大而全到小而美.pdf
2021-07-07大数据落地应用:从大而全到小而美.pdf
- 40.27MB
免费 Python算法教程_中文版pdf
2017-08-17免费 Python算法教程_中文版pdf
- 15.73MB
python版本 算法详解
2018-04-12python版本 算法详解 袁国忠翻译,适合基础入门,值得学习
- 42.98MB
Python算法教程_中文版.pdf
2017-06-30Python算法教程_中文版.pdf
- 2.69MB
Python Algorithm(Python 算法教程)PDF版
2016-12-01挪威畅销书作者Magnus Lie Hetland的力作,用python语言解释部分数据结构和基础算法。
- 471KB
计算机应用技术(大数据)专业人才培养实施方案.pdf
2022-06-17计算机应用技术(大数据)专业人才培养实施方案.pdf计算机应用技术(大数据)专业人才培养实施方案.pdf计算机应用技术(大数据)专业人才培养实施方案.pdf计算机应用技术(大数据)专业人才培养实施方案.pdf计算机应用技术...
- 2.22MB
商业综合体大数据云平台建设和运营整体解决方案 商业综合体信息化管理平台建设方案.pdf
2022-06-11商业综合体大数据云平台建设和运营整体解决方案 商业综合体信息化管理平台建设方案.pdf商业综合体大数据云平台建设和运营整体解决方案 商业综合体信息化管理平台建设方案.pdf商业综合体大数据云平台建设和运营整体...
- 1.37MB
大数据平台项目需求与技术解决方案.pdf
2022-06-10大数据平台项目需求与技术解决方案.pdf大数据平台项目需求与技术解决方案.pdf大数据平台项目需求与技术解决方案.pdf大数据平台项目需求与技术解决方案.pdf大数据平台项目需求与技术解决方案.pdf大数据平台项目需求与...
- 9.69MB
地球科学大数据的管理与共享:以英国地质调查局为例.pdf
2021-07-05地球科学大数据的管理与共享:以英国地质调查局为例.pdf
- 370KB
电力能源大数据技术方案.pdf
2022-06-14电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术方案.pdf电力能源大数据技术...