在本次关于阿里巴巴大数据智能技术的分享中,阿里巴巴数据技术及产品部的王赛在2017年杭州云栖大会上深入探讨了与大数据相关的一系列问题与挑战、Dataphin技术、关键技术变革以及如何通过阿里数据中台普惠社会。 大数据团队面临的问题与挑战主要集中在如何高效使用数据、优化数据建设、招聘数据专家等方面。在大数据之路上,挑战主要包括数据流失、数据资产管理、数据孤岛问题、跨数据源异构存储、研发效能、计算性能、数据质量、实体识别、标签挖掘等。这些问题需要数据分析师、数据工程师、团队主管等共同努力,来提高数据的使用效率,构建最优化的数据基础设施,同时解决数据人才招聘难题。 Dataphin作为阿里巴巴提出的一个重要技术,其目的是让数据工作更加协同和智能化。Dataphin的工作台崛起,主要通过Making everything work together的概念,即让所有事物协同工作。Dataphin产品架构包含了面向业务的、基于主题的统一数据服务和统一数据资产及其管理。同时,Dataphin具备垂直数据中心和全域数据中心的萃取能力,以及垂直数据处理套件、数据采集管理工具、数据清洗及结构化工具、数据同步集成工具等。 Dataphin的关键技术变革体现在其业务逻辑模型的转变上,从物理表视角转向企业级业务视图视角,包括概念模型、逻辑模型、物理模型。Dataphin让数据分析师、数据工程师和业务逻辑模型之间的协同变得简单高效。它提供了面向公共空间业务空间的商品协同开发复用共享功能,例如天猫、淘宝、航旅商品的子模型等于父模型的关系,主键子集合以及子类扩展属性,从而提升效能。 在技术内核方面,Dataphin采用了标准化的数据定义和智能物理模型,智能计算框架与多计算引擎兼容。其数据建设与管理方法论涵盖了OneService、OneID、OneData等概念,为数据标准化技术驱动数据连接提供了基础。Dataphin还提出了全流程一体化的向上多样化赋能场景以及向下屏蔽多计算引擎的架构设计,使得从数据采集到数据服务的全链路通通用产品+行业产品+专享产品,支持公共云、专有云和私有云。 对于数据服务,Dataphin提供了主题式数据服务,屏蔽复杂物理表,统一但多样化的数据服务,一般查询、OLAP分析、在线服务。元数据驱动的智能化和业务驱动的技术价值化,实现从半自动化到智能化的转变。Dataphin还负责规划计算和存储孤岛,转变为高质量高价值的跨源数据服务,屏蔽多种异构数据源。 在数据建模研发方面,Dataphin基于标准化的数据定义,复用计算逻辑,派生指标的业务限定,以及原子指标业务过程度量统计周期分析粒度。智能计算引擎生成及优化代码,算子重组计算执行单元,包括MaxCompute、HadoopSpark、临时表自动选择计算执行单元以及防倾斜处理物理表选择优化计算执行单元。 总而言之,王赛在分享中提到的阿里数据中台普惠社会的意义在于,通过Dataphin这样的技术平台,使得数据工作更加高效协同,并且智能化。这不仅有助于解决大数据团队面临的众多问题与挑战,同时也能够为企业和用户提供更多元化、高质量、高价值的数据服务。Dataphin技术的演进,以数据标准化、技术驱动、数据连接为基础,与业务逻辑模型结合,实现业务逻辑模型视角的变革。该平台支持业务与产品、技术的协同互助,全面提升了数据的研发效能和业务应用的计算性能,为数据管理与分析领域注入了新的活力。
- 粉丝: 30
- 资源: 3
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于ESP8266和Arduino的HomeMatic水表读数系统.zip
- (源码)基于Django和OpenCV的智能车视频处理系统.zip
- (源码)基于ESP8266的WebDAV服务器与3D打印机管理系统.zip
- (源码)基于Nio实现的Mycat 2.0数据库代理系统.zip
- (源码)基于Java的高校学生就业管理系统.zip
- (源码)基于Spring Boot框架的博客系统.zip
- (源码)基于Spring Boot框架的博客管理系统.zip
- (源码)基于ESP8266和Blynk的IR设备控制系统.zip
- (源码)基于Java和JSP的校园论坛系统.zip
- (源码)基于ROS Kinetic框架的AGV激光雷达导航与SLAM系统.zip