Hadoop大数据实战权威指南(第2版)
电子书推荐
-
大数据之路:阿里巴巴大数据实践[PDF][高清扫描版][带目录] 评分:
大数据之路:阿里巴巴大数据实践[PDF][高清扫描版][带目录],介绍了大数据建模的基本理论和方法,并以阿里数据为例,介绍了阿里巴巴数据采集、处理、建模、数据服务等等过程中的示例
上传时间:2018-11 大小:98.05MB
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 3.77MB
阿里巴巴大数据实践之路.ppt
2022-05-26阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt阿里巴巴大数据实践之路.ppt
- 16.69MB
阿里巴巴的大数据实战总结大数据实战.zip
2020-08-16阿里巴巴的大数据实战总结,maxcompute,hadoop等。深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册
- 104.86MB
阿里巴巴 大数据之路
2019-04-29阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 106B
干货 | 36个大数据文档PDF开放下载-附件资源
2021-03-05干货 | 36个大数据文档PDF开放下载-附件资源
- 1.39MB
阿里巴巴大数据解决方案.pdf
2015-01-29阿里巴巴大数据解决方案,包括Hadoop集群服务模式、跨机房方方案、ODPS简介
- 2.41MB
2019_阿里巴巴数据中台实践分享.pdf
2020-03-302019_阿里巴巴数据中台实践分享
- 4.95MB
仿阿里巴巴网上贸易b2b电子商务行业门户网站管理系统
2010-01-10仿阿里巴巴商贸通B2B行业商务门户网站管理系统说明 测试帐号:admin 密码:admin 如果下载本系统到本地服务器或者上传到你的服务器空间测试 先进后台进行必要的系统设置 比如你本地测试地址是http://127.0.0.1/ 那么后台管理地址是http://127.0.0.1/admin/ 用测试帐号和密码登录后台管理,打开“系统设置”--->“系统信息” 找到“基本信息”设置中的“网站地址”填写http://127.0.0.1/ 前台的图片正常显示 如果上传到了服务器空间,同理,比如网址是http://www.xxxx.cn/b2b/ 那么“基本信息”设置中的“网站地址”填写http://www.xxxx.cn/b2b/
- 119.84MB
大数据大创新-阿里巴巴云上数据中台之道.zip
2021-08-20大数据大创新-阿里巴巴云上数据中台之道
- 289KB
基于阿里巴巴B2B电子商务模式的研究
2020-02-25基于阿里巴巴B2B电子商务模式的研究,钟燕,,随着互联网的兴起与发展,电子商务逐渐成为全球商务活动的新模式。电子商务作为新经济下的商业模式,是对传统模式的一次根本性革
- 16.60MB
《大数据》
2019-04-11大数据徐子沛
- 12KB
大数据开发
2018-01-23大数据开发;通过本代码可以与腾讯服务器、第三方服务器,手机登建立连接
- 1.53MB
阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
2018-02-26阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
- 330KB
大阿里大数据战略
2014-05-14惊闻,菜鸟横空出世,他日,定会改写物流;退休,只为阿里走好,复出,又要创造奇迹;活着,就要改变世界,如今,你准备好了吗?
- 89.37MB
GreenPLum6-1.pdf
2019-12-17GreenPlum6官方文档中文翻译,如下为节选: 有关配置,管理和监控Greenplum数据库安装以及管理,监控和使用数 据库的信息。该指南还包含有关Greenplum数据库架构和概念(例如 并行处理)的信息。 Greenplum数据库概念 这一节给出了Greenplum数据库组件和特性的概述,例如高可用 性、并行数据装载特性以及管理工具。 管理一个Greenplum系统 这一节描述了一个Greenplum数据库系统管理员所执行的基本系统 管理任务。 管理Greenplum数据库访问 保护Greenplum数据库,包括通过网络配置、数据库用户身份验 证、加密来保护对数据库的访问。 定义数据库对象 这一节包括Greenplum数据库中的数据定义语言(DDL)以及如何 创建和管理数据库对象。 分布与倾斜 Greenplum数据库依赖于跨节点的均匀数据分布。 插入, 更新, 和删除数据 这一节提供了Greenplum数据库中有关操纵数据和并发访问的信 息。 查询数据 本主题提供在Greenplum数据库中使用SQL的信息。 使用外部数据 外部表和外表都可以访问存储在Greenplum数据库之外的数据源中 的数据,就好像数据存储在常规数据库表中一样。您可以从外部表 和外表读取和写入数据。 装载和卸载数据 这一节中的主题描述了Greenplum数据库中将数据装载进来和写出 去的方法,以及如何格式化数据文件。 性能管理 这一节的内容是Greenplum数据库的性能管理,其中包含了如何监 控,以及如何通过配置工作量来进行资源调用的优先级管理。
- 161KB
第十五届蓝桥杯大赛软件赛省赛-C/C++ 研究生组
2024-04-13第十五届蓝桥杯大赛软件赛省赛_C/C++ 研究生组
- 149KB
甲骨文卷积神经网络识别-RTL(甲骨文识别)
2024-04-13甲骨文识别 甲骨文卷积神经网络识别-RTL(
- 1.66MB
数学建模国赛:无人机遂行编队飞行中的纯方位无源定位分析
2023-07-29国家二等奖获奖论文。本文基于平面几何分析以及正弦定理建立了三角分区定位模型,针对发射与接收信号的 无人机的相对位置不同的问题,提出了分区控制算法,并结合三角形相似定理和控制变量的 思想,提出了互反馈方位调整模型。 对于问题一的第一小问,利用三角分区定位模型、以及分区控制算法对接收信号的无人 机进行定位,该定位模型适用于所有包含 FY00 在内的任意三架无人机发射信号进行定位的 情况,即编号为 FY00、FY01、FY0M(M∈{2,3,4,5,6,7,8,9})的无人机发射信号, 当队列中某架飞机 FY0N 接收到的方向信息为?、?、?(?、?、?的定义见符号说明),根 据各个区间的的无人机之间的平面几何关系,可以得到各个区域的无人机的位置信息的关于 (?、θ)的通解公式(见正文 5.1.2 公式(9)(10)(11)(12)),之后再利用分区控制 算法分别对各个区域对应的通解公式进行求解,即可得到队列中任意无人机的位置信息。
- 6.54MB
最值得收藏的 数据结构 全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx
2021-03-27用mindmaster打开文件, 本文的思维导图根据王道的数据结构书本整理而来并标记出重点内容,包括了知识点和部分课后习题
- 22KB
VRPTW 的 Solomon 标准测试数据集
2023-11-27CVRP问题下的VRPTW变体的测试数据集,常用来测试验证算法性能
- 4KB
利用SVM(支持向量机)进行图像分割/提取-MATLAB
2023-06-15利用SVM(支持向量机)进行图像分割/提取。对给定的图像进行分割,将图像中的需要的区域和背景区域进行区分,并生成相应的分割图像和边界图像。
- 7KB
变分模态分解(VMD)代码
2022-03-26VMD算法的原matlab原代码 在代码中本人添加了详细的注释,看源代码期间配合本人发表的博客会实现VMD的快速入门