Hadoop大数据实战权威指南(第2版)
电子书推荐
-
《大数据之路:阿里巴巴大数据实践》阿里巴巴数据技术及产品部著 评分:
不是好资源不上传,阿里巴巴大数据实战,真正的知识源于实践。
上传时间:2018-04 大小:85.9MB
- 315KB
阿里巴巴大数据之路——数据技术篇.pdf
2022-12-24阿⾥巴巴⼤数据之路 阿⾥巴巴⼤数据之路——数据技术篇 数据技术篇 ⼀、整体架构 ⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具 ⼆、数据采集(离线数据同步) ⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略(参考书籍原⽂)。我们主要运⽤的是数据库采集(数据库同步)。 通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件 ,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。以此来实现数据格式的统⼀。 产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。 产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。 产品——阿⾥TimeTunnel(简称TT)。TT产品本质是⼀个⽣产者、消费者模型的消息中间件 3)常见问题 1.增量数据与全量数据的合并 主要的场景是数据同步中周期全量同步,对应的解决⽅案是每次只同步变更的数据,然后和上⼀周期合并,形成最新的全量数据(选择此⽅案的原因是绝⼤多 数⼤数据平台不⽀持update操作) 具体的⽅案主要有union的联合操作(可以通过⽣成增量中间表detal)与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下: SQL的Join语法有很多, inner join(等值连接) 只返回两个表中联结字段相等的⾏, left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录, right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录, 假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所⽰: A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况,A和B的交集有两条数据,那么 FULL OUTER JOIN的结果集, 应该是2+2+2=6条,即上⾯的交集,再加剩下的四条数据,没有匹配,以null补全。 结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag
- 11.9MB
阿里巴巴大数据实践之路.pdf
2021-10-06阿里巴巴大数据实践之路.pdf
- 7.73MB
阿里巴巴大数据实践之路-9.pdf
2022-06-26阿里巴巴大数据实践之路-9.pdf
- 85.89MB
阿里大数据之路:阿里巴巴大数据实践-339页.zip
2021-09-29阿里大数据之路:阿里巴巴大数据实践-339页
- 104.86MB
阿里巴巴 大数据之路
2019-04-29阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
- 3.84MB
阿里巴巴人工智能驱动大数据.pdf
2019-08-29阿里巴巴数据技术及产品部资深算法专家杨红霞在2017杭州云栖大会中做了题为《阿里巴巴人工智能驱动大数据》的分享,就复杂的大数据,全域实体识别,自动化标签生产系统做了深入的分析。
- 32.68MB
阿里技术参考图册-研发篇
2018-10-13走进数据技术及产品部 资深算法专家 鸿侠 商业智能部:最强大脑 商业智能部研究员 正瀚 走进前端技术 信息平台高级前端技术专家 骁勇 新零售下的前端技术发展& 突破 (天猫& 新零售供应链) 天猫高级前端专家 ...
- 264KB
阿里巴巴:对外开源自研液冷数据中心技术
2021-01-07以阿里巴巴为代表的互联网公司凭借洞察的优势和扎实的技术正在引领 IT 基础设施的自主研发和技术创新,除了液冷技术外,阿里巴巴基础设施事业部还自主研发了 400G 光模块、存储部件、智能供电技术等创新产品,追求...
- 3.54MB
阿里巴大数据智能ppt
2018-12-15阿里巴巴数据技术及产品部王赛在2017杭州云栖大会中做了题为《阿里巴巴大数据智能技术》的分享,就问题与挑战,Dataphin,关键技术变革,阿里数据中台普惠社会做了深入的分析。
- 7.12MB
阿里大数据之路——关键总结版.pdf
2021-11-22阿里大数据之路的自我总结,希望分享给有需要的同学,包含大量自己画的图
- 2.4MB
阿里巴巴大数据实践之路
2015-11-12云栖大会, 阿里巴巴大数据实践, 介绍了阿里巴巴数据存储,打通,运营过程
- 420KB
阿里大数据之路.xmind
2020-07-10该资源包含了《大数据之路-阿里巴巴大数据》这本书的整体思维导图,并且按照自己从业经验进行归纳整理,囊括了:数据采集,数据计算,数据模型,数据管理,数据生命周期的相关知识点
- 20.22MB
阿里巴巴大数据及ai实战112页.pdf
2021-06-03IT的基础设施上云只是一个开始。云的最大价值,用一句话来说,就是”数据让应用智能化“。从阿里巴巴经济体的角度来说,未来数据智能技术发展的两大方向,一是实时化的大数据能力,二是人工智能技术。云时代的数据智能,可以真正处理海量的数据,可以真正实时地进行数据的分析,也可以真正把人工智能和大数据完美结合,提炼数据的内在规律。
- 1.8MB
携程大数据开发平台实践
2019-02-27携程大数据开发平台实践 一个非常好的学习大数据开发的资料
- 1.83MB
大数据网络营销.pptx
2022-12-24大数据的应用 找工作 领英:用大数据颠覆招聘 找对象 极客通过大数据找到女朋友 电子商务 阿里巴巴大数据:女生胸越大,越败家? 移动 今日头条,个性化推荐 互联网金融 人人贷,大数据理财 大数据医疗 百度疾病...
- 12.40MB
拥抱时空大数据阿里云时空数据库.pdf
2019-08-29嘉宾介绍:宋子辉(花名:毅鹏) ,阿里云数据库产品事业部高级技术专家
- 248KB
解析阿里云大数据服务——ODPS
2021-03-03基于飞天的ODPS,对内是阿里集团30多个事业部唯一的大数据处理平台;...7月14日,阿里云计算公司总裁及阿里巴巴集团副总裁王文彬(花名菲青)为之站场,并称之为“中国进入大数据时代的里程碑”。从确定自主开发,到20
- 21KB
银行深耕“大数据”.docx
2022-12-24以银行系电商平台为例,大数据整合基于庞大的线上交易量,但就目前来看,与阿里巴巴、京东等电商平台相比,银行系电商交易量普遍不大、产品价格吸引力较弱。 有业内人士指出,数据造假的问题也容易困扰银行业务的...
- 11.10MB
阿里巴巴大数据实践之路-陈鹏宇.pdf
2021-07-02阿里巴巴大数据实践之路-陈鹏宇.pdf
- 1.39MB
阿里巴巴大数据解决方案.pdf
2015-01-29阿里巴巴大数据解决方案,包括Hadoop集群服务模式、跨机房方方案、ODPS简介
- 1.53MB
阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
2018-02-26阿里巴巴百家讲坛-大规模离线数据计算-hadoop 高清完整中文版PDF下载
- 60.28MB
大数据面试笔试资料-56家互联网大公司面试笔试题资料整理汇总.zip
2021-06-25阿里巴巴?面试题32 博睿宏远?面试题33 融易通?面试题33 中国互联网络信息中心?面试题33? 优酷土豆?面试题33 乐视?面试题41 TalkingData?面试题41 网德天下?面试题41 东方国信?面试题41 畅捷通?面试题41 ...
- 4.70MB
阿里云Hbase PPT
2018-12-15阿里巴巴数据技术及产品部王赛在2017杭州云栖大会中做了题为《阿里巴巴大数据智能技术》的分享,就问题与挑战,Dataphin,关键技术变革,阿里数据中台普惠社会做了深入的分析。
- 73KB
工作心得:人工智能云计算平台-开启人工智能新生态(最新).doc
2023-06-02目前,X科技产品及技术解决方案已经在金融、安防、教育、交通等重要行业领域中 应用,已与包括中信银行、中国电信、国家公安部第一研究所、万科、阿里巴巴、清华 大学、铁路总公司等龙头企业在内300余家企业、政府...
- 3KB
招商证券java笔试题-recruitment2020:天猫营销平台招聘
2021-06-13阿里巴巴天猫营销平台招聘开始啦 只需要姓名,电话和邮箱就可以报名啦!有意向直接联系我-陈凯恒 电话:13146621984(钉钉、微信绑定),微信:Jean1254652151,邮箱: 一、部门介绍 在这里我们可以做这些: 负责阿里...
- 191.6MB
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计
2023-10-30项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要介绍: 数据采集:系统通过各种渠道(如招聘网站、社交媒体等)获取大量的招聘相关数据,包括职位信息、公司信息、求职者信息等。这些数据以结构化或半结构化形式存在。 数据存储与处理:系统利用Hadoop分布式文件系统(HDFS)存储采集到的招聘数据,并使用Hadoop生态圈中的工具(如Hive、HBase等)进行数据处理和管理。Spark作为数据处理引擎,提供高性能的批处理和实时计算能力,对招聘数据进行清洗、转换和特征提取等操作。 招聘推荐:系统利用Spark的机器学习库(如MLlib)构建候选模型,通过对求职者的个人资料、工作经历、技能等特征进行分析,匹配合适的职位和公司。系统可以根据用户的偏好和需求,向其推荐最相关的招聘信息。 可视化展示:系统利用可视化工具(如matplotlib、Plotly等)将招聘数据以各种图表、图形等形式可视化展示。
- 685.0MB
hadoop-3.3.4.tar.gz + winutils 安装环境
2023-08-03【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils ) https://hanshuliang.blog.csdn.net/article/details/132045605 一、下载 Hadoop 二、解压 Hadoop 三、设置 Hadoop 环境变量 四、配置 Hadoop 环境脚本 五、安装 winutils 六、重启电脑 七、验证 Hadoop 安装效果
- 1.49MB
基于Hadoop的电影影评数据分析
2023-04-04是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。