没有合适的资源?快使用搜索试试~ 我知道了~
引子:随着传统基于RDBMS的EDW往大数据的演进的过程中,Batch可处理的数据量越来越大,时间越来越快,但是Ad-hoc的响应速度却始终是大数据的瓶颈。在2015年唯品会的数据分析碰到了以下两个瓶颈:第一是数据准备的流程长,第二是缺少合适数据提取和分析工具。首先,从数据准备流程来看,常见的流程是业务人员提出需求,BI同事定角度、找数据,如果数据不完善,还得继续找数据开发。这就导致同一个需求,需要和不同的人反复沟通,在沟通过程中参与的人越多,信息衰减也就越厉害。再加上排期的等待,最终的结果一方面可能与初衷有所偏差,另一方面时间一长也
资源推荐
资源详情
资源评论
ApacheKylin在唯品会大数据的应用在唯品会大数据的应用
背景介绍
引子:随着传统基于RDBMS的EDW往大数据的演进的过程中,Batch可处理的数据量越来越大,时间越来越快,但是Ad-hoc
的响应速度却始终是大数据的瓶颈。
在2015年 唯品会的数据分析碰到了以下两个瓶颈:第一是数据准备的流程长,第二是缺少合适数据提取和分析工具。
首先,从数据准备流程来看,常见的流程是业务人员提出需求,BI同事定角度、找数据, 如果数据不完善,还得继续找数据
开发。这就导致同一个需求,需要和不同的人反复沟通,在沟通过程中参与的人越多,信息衰减也就越厉害。再加上排期的等
待,最终的结果一方面可能与初衷有所偏差,另一方面时间一长也失去了对热点关注度,分析变得非常滞后,不能及时的反应
线上业务并加以改进。
其次,对于有分析能力的业务侧同学,没有趁手的工具就导致即使有能力准备撩袖子大干一场了也发现巧妇难为无米之炊,大
家只能感慨大数据的门槛太高了,又回到了第一点的长时间等待的恶性循环里去了。
我们总结下来,在唯品会这样规模的公司里,数据分析有两个痛点:
需要一个可以自由组合的维度和指标的平台,业务人员可以根据自己的视角自给自足的完成数据提取和分析;
这个平台,不仅数据要够丰富,即使大数据量响应速度也要快。
针对这两个痛点,本着“让大数据成为唯品会的增长引擎”这个目标,我们大数据部门的提供了一套完整的解决方案:自助多维
分析平台。我们通过有较高可扩展性的维度建模准备数据,在此之上搭建一套数据查询引擎,并配上操作简单的数据可视化前
端,为业务人员搭了数据分析的台子。随着大家数据分析技能的提升,人人都是数据分析师的这个理念就逐渐在公司内部扩展
开来了。
唯品会如何使用Kylin
数据和前端是皮和肉,需要通过好的数据引擎才能支撑起来。在数据引擎角度,我们通过一段时间的积累和演进,从基于
Presto的ROLAP模型进化到了基于Kylin和Presto的双计算引擎。往超大数据集也要快速ad-hoc响应的方向走近了一步。
第一阶段,我们的目标是在Ad-hoc响应时间<= 10秒的前提条件下,支持:
平均每次查询10亿+明细数据做汇总;
平均每个查询0-15个维度;
平均每个查询1-5个指标。
根据这个目标,我们选择使用Presto作为计算引擎,Presto MPP的架构 + 通过Hive Connector直接访问HDFS上的数据,为我
们提供良好的Ad-hoc响应速度和相对较低的维护成本。为了满足高Ad-hoc响应速度的需求,常见的做法是把HDFS上处理完
的数据同步到Ad-hoc响应友好的数据库中,比如GreenPlum或Hbase等,但这样的缺点是虽然速度上去了,但数据模型在
Hive和Ad-hoc库中需要维护两份并保持一致,维护的成本非常高。Presto的Connector机制很好的解决了这个问题,同时他的
资源评论
weixin_38656337
- 粉丝: 4
- 资源: 921
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- json的合法基色来自红包东i请各位
- 项目采用YOLO V4算法模型进行目标检测,使用Deep SORT目标跟踪算法 .zip
- 针对实时视频流和静态图像实现的对象检测和跟踪算法 .zip
- 部署 yolox 算法使用 deepstream.zip
- 基于webmagic、springboot和mybatis的MagicToe Java爬虫设计源码
- 通过实时流协议 (RTSP) 使用 Yolo、OpenCV 和 Python 进行深度学习的对象检测.zip
- 基于Python和HTML的tb商品列表查询分析设计源码
- 基于国民技术RT-THREAD的MULTInstrument多功能电子测量仪器设计源码
- 基于Java技术的网络报修平台后端设计源码
- 基于Python的美食杰中华菜系数据挖掘与分析设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功