阿里巴巴资深技术专家强琦:大数据开发平台

阿里巴巴资深技术专家强琦在第五届云计算大会的《云计算与大数据》专题论坛上所做的《大数据开发平台》主题演讲,深入浅出地介绍了大数据技术在阿里巴巴的应用实践和平台构建。本次演讲的主要内容包括大数据开发的背景、平台构建、以及平台的应用探索,以下是根据演讲内容提炼出的知识点:
一、大数据开发背景
1. 数据规模与增长:阿里巴巴集团面临的数据规模极为庞大,拥有数百万张数据表,结构化数据总量达到80PB,并且每月还在以3PB的速度增长,业务线对数据的支持已经实现了全覆盖。
2. 数据管理与处理挑战:如何解决找不到数据、用不起计算能力、用不了数据质量等问题成为阿里巴巴在大数据开发中必须要面对的挑战。
3. 外部能力的整合:需要整合找不到的数据管理、用不起的计算能力、用不了的数据质量关系,实现数据的共享与共建。
4. 架构模式与市场机制:采用网状-星型架构和数据市场共享共建方式,结合empowerer(赋能者)的概念,采用封闭-开放体系,实现数据的有效管理和利用。
二、大数据开发平台
1. 数据管理:平台通过元数据、数据地图、质量体系、血缘分析等手段,实现数据的可找到性和易用性,为大数据探索提供了基础。
2. 大数据处理平台:为满足大数据处理的需求,阿里巴巴构建了包括大规模批量计算系统、流计算服务化平台、数据同步中心、实时数据中心、在线KV存储服务等,以实现用得起、用得好的数据处理能力。
3. 调度服务和监控:为了实现资源的高效利用,平台提供了调度服务和即时计算服务,并通过监控、计量、审计、安全服务对平台进行全方位的维护和保障。
4. 开发者门户与算法平台:通过开发者门户IDE、算法平台等工具和框架,为开发者提供便捷的大数据开发环境,降低大数据应用开发的门槛。
三、大数据平台的应用探索
1. 星型架构与数据中间层:通过统一中间层ODS(Operation Data Store)、通用数据层等,建立统一的数据模型,避免重复建设,实现数据做乘法的效果。
2. 数据市场:建立质量体系和市场机制,通过数据市场共享和共建数据,支持应用市场的发展。
3. 开放体系与API服务:在开放体系的构建中,通过组件API服务、接入标准等,实现开放和共享,为开发者提供以业务落地为标准的开放平台。
4. 数据交换平台:阿里巴巴Map是数据交换平台的一部分,支持信用、金融、物流、管理等社会化场景的大数据应用,同时提供SaaS服务。
四、系统组成和架构
1. 云梯系统:云梯1和云梯2是阿里巴巴大数据平台的主要组成部分,它们提供了海量数据的存储和计算能力,支持大规模的计算任务,并以RESTful API提供服务。
2. 离线计算与流式处理:ODPS架构提供了基础计算模型层和算法平台框架,支持SQL、MR、MPI等多种计算模型,满足不同数据处理的需求。
3. 实时计算与存储:实时计算框架和在线KV存储服务提供了实时数据处理和存储的能力,对于数据实时性要求高的应用提供了支持。
4. 特征处理与算法框架:针对数据处理,提供了特征向量化、离散化、缺失处理、特征选择及分析层等一系列特征处理方法,同时支持分类算法、聚类算法等核心算法框架,为数据挖掘和分析提供强大的计算支持。
强琦的演讲为我们展示了阿里巴巴如何利用大数据技术推动业务创新与发展,构建高效的大数据开发平台,以及如何在保证数据安全和质量的前提下实现数据的开放与共享。通过这些措施,阿里巴巴能够充分挖掘大数据的价值,为不同业务线提供支持,同时也为业界提供了一个大数据平台构建和应用的优秀案例。

仲浩
- 粉丝: 248
最新资源
- hadoop习题册(可编辑修改word版).docx
- CAD制图心得体会.docx
- acmjudger-大学生程序设计竞赛资源
- TD-LTE通信.doc
- 电力系统及其自动化专业攻读硕士学位研究分析报告生培养方案学术型.doc
- 安盛-雅戈尔服饰有限公司营销网络建设项目建议书最终版.pptx
- RUP软件工程研究及应用分析.doc
- 2023年物流网络博弈实验报告.docx
- 2023年江苏省中小学教师班主任知识网络竞赛独家整理试题完整版.doc
- 比率分析表Excel模板.pdf
- win2003网络服务管理.ppt
- 04749--10自考网络工程试题与答案.doc
- 2022应届毕业生软件专业自荐信.docx
- 财务软件购买申请报告.doc
- 大型网吧网络系统设计详细方案.doc
- 电脑及网络使用管理条例.doc
- 1
- 2
- 3
- 4
- 5
- 6
前往页