阿里巴巴离线大数据处理平台
阿里巴巴离线大数据处理平台是基于大数据时代的挑战,旨在解决小微企业贷款难的问题。该平台使用了完全以数据驱动的产品,通过对既有数据进行二次挖掘,颠覆原有业务模式,并具有规模优势。
架构组件
1. ODPS (Open Data Processing Service)
ODPS是一种支持海量结构化数据的离线存储和计算服务,提供RESTful API接口,以阿里巴巴自主知识产权的分布式操作系统为基础。ODPS支持高吞吐量的数据上传下载服务、SQL和存储过程、MapReduce和BSP编程框架、常用的矩阵运算和数据挖掘算法、多用户管理和基于ACL和policy的权限控制。
挑战
1. 高效稳定的计算模型
SQL和Map Reduce仍然是离线运算的主流,但是频繁IO带来的性能瓶颈和模型描述能力的局限。
解决方案
1. 准实时查询
准实时查询可以避免IO消耗,节约调度成本,但是存在Failover、资源占用和数据规模等劣势。适用场景为Ad hoc分析。
2. 图编程
图编程可以方便处理图数据,多轮迭代性能远好于MR,但是存在数据倾斜时的内存控制、与其他类型作业共存、错误恢复等挑战。应用场景包括推荐、社交网络、物流等。
图编程实现SSSP算法
1. GraphLoader – 图加载基类
SSSPGraphLoader是一个图加载基类,用于加载图数据,并将其转换为可计算的形式。
2. Vertex – 点基类
SSSPVertex是一个点基类,用于计算图中的点的值,并将其发送到邻近的点中。
阿里巴巴离线大数据处理平台是基于大数据时代的挑战,旨在解决小微企业贷款难的问题。该平台使用了完全以数据驱动的产品,通过对既有数据进行二次挖掘,颠覆原有业务模式,并具有规模优势。该平台架构组件包括ODPS、准实时查询和图编程等,旨在解决高效稳定的计算模型、数据倾斜等挑战。
评论0
最新资源