没有合适的资源?快使用搜索试试~ 我知道了~
基于Apache Doris的数据中台建设思路规划
3 下载量 172 浏览量
2024-03-06
11:18:42
上传
评论
收藏 6.67MB PDF 举报
温馨提示
试读
46页
基于Apache Doris的数据中台建设思路规划
资源推荐
资源详情
资源评论
基于Apache Doris的数据中台建设思路及规
划
1.概述
1.1 什么是数据中台
数据是从业务系统产生的,而业务系统也需要数据分析的结果,那么是否可以把业务系统的数据存
储和计算能力抽离,由单独的数据处理平台提供存储和计算能力?这样不仅可以简化业务系统的复杂
性,还可以让各个系统采用更合适的技术,专注做本身擅长的事。这个专用的数据处理平台即数据中
台。
数据中台是一个用技术连接大数据计算存储能力,用业务连接数据应用场景能力的平台。
“连接能力”是数据中台的精髓。作为一个处在中间层的能力平台,“连接”是其根本任务。在业务层面
需要尽可能连接各种数据源作为其生产资料;同时,由于生产数据的场景越来越多,覆盖了线上线下等
多渠道,各数据生产资料之间也需要进行连接,才能形成全域的数据;数据在数据中台这个平台上按照
标准的模型进行规范加工处理后需要服务于多种场景,同样需要我们提供标准的数据服务接口将数据与
应用场景连接起来。因此,连接是数据中台的根本能力,也是数据中台的价值所在。
数据中台通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高
效服务。这些服务跟企业的业务有较强关联性,是这个企业独有且能复用的
1.2 数据中台解决什么问题
1、效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当
业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响
上线时间。
2、协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,
所以数据还是要自己再开发一遍。
3、能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我
们有一大把的应用开发人员,而数据开发人员很少。
1.3 数据中台和数据仓库、数据平台的区别
1、数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方
式是数据 API;
2、数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的
方式主要是分析报表;
3、数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的
方式主要是直接提供数据集;
4、数据中台距离业务更近,为业务提供速度更快的服务;
5、数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分
析型场景,也适用于交易型场景;
6、数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
1.4 名词解释
1. 数据主题域
指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不拆分
的行为事件,在业务过程之下,可以定义指标;维度,是度量的环境,如门店采购订单事件,门店
采购是维度。为了保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护更新的,变动需
执行变更流程。
2. 业务过程
指公司的业务活动事件,如采购、销售、支付、配送等都是业务过程。其中,业务过程不可拆分。
3. 时间周期
用来明确统计的时间范围或者时间点,如最近30天、自然周、截止当日等。
4. 修饰类型
是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖APP端、
PC端等修饰词。
5. 修饰词
指的是统计维度以外指标的业务场景限定抽象,修饰词属于一种修饰类型,如在日志域的访问终端
类型下,有修饰词APP、PC端等。
6. 度量/原子指标
原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具
有明确业务含义的名称,如支付金额。
7. 维度
维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对
象。维度属于一个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括
年、季、月、周、日等级别内容)。
8. 维度属性
维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性。
9. 指标分类
主要分为原子指标、衍生指标、复合指标
原子指标
基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如
呼单量、交易金额
衍生指标
是一个个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。派生指标又
分以下二种类型:
1. 事务型指标
是指对业务过程进行衡量的指标。例如,订单量、订单支付金额,这类指标需要维护原子指标以及
修饰词,在此基础上创建派生指标。
2. 存量型指标
是指对实体对象某些状态的统计,例如注册司机总数、注册配送车辆总数,这类指标需要维护原子
指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截止当前某个时间”。
复合指标
是在事务性指标和存量型指标的基础上复合成的。主要有比率型、比例型、统计型均值
2.平台建设目的
大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经
成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。
为了解决企业业务在实际中存在的以下问题:
1. 各个业务数据重复开发浪费存储与计算资源
2. 数据标准不统一,存在数据质量问题,数据使用成本高
3. 业务数据孤岛问题严重业务协同能力弱,数据利用效率低
4. 缺乏精准模型支撑,数据分析能力不足,数据应用价值不高
基于四个统一,统一数据采集,统一数据处理,统一数据存储,统一数据服务,基于计算及存储基
座,提供标准统一、可连接萃取的数据中台,包含数据采集与研发、数据连接与萃取、数据资产管理及
统一数据服务,服务于上层业务,如经营分析、消费者营销洞察等场景
在实际数据开发应用中存在,不知数据在什么地方,数据是什么意思,拿到一个报表怎么开发,数
据怎么获取,最后数据怎么能快速的可视化呈现出来这五个难题,我们建设这个数据中台就是要解决:
找数据,理解数据、问题评估、取数及可视化展现这五个问题,整个平台的故事也是围绕这个五个点,
从根本上解决:
找数:数据从什么地方来到什么地方去,将数据和业务过程结合起来,实现数据的快速查询
理解数据:通过数据的血缘关系,数据关联关系及数据的说明信息,让数据开发人员,业务人员快速理
解数据
问题评估:数据分析人员拿到需求,可以通过该平台实现问题的自动评估,大大提高数据分析效率
取数:用户可以不再关心数据的来源,不再担心数据的一致性,不再依赖RD的排期开发。通过所选即所
得的方式,满足了用户对业务核心指标的二次加工、报表和取数诉求
数据可视化:依托于我们的BI可视化系统和数据中台的打通,数据分析人员可以快速的将数据中台创建
的数据模型快速的转换成可视化报表。
3.数据中台建设内容
1. 数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免
数据指标的二义性。
2. 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的
研发立案率。
3. 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资
产,方便业务查找及应用。
4. 可视化数据资产:系统化构建业务数据资产大图,还原业务系统,提取业务知识,快速提取业务关
键环节及业务。
5. 数据使用简单可依赖:定义及服务,研发构建的业务主题式数据逻辑表可被直接,快速查询及访
问,简化查询代码。
3.1 数据中台架构
3.1.1 数据中台系统架构
3.1.2 数据中台技术架构
架构说明:
1. 数仓整体以Doris为核心构建公司企业级数据仓库,(后期会根据实际需要还可能会引进Hive、
ClickHouse等其他组件)
2. 通过统一的数据采集系统,多种数据采集手段,包括Mysql binlog解析(CDC,StreamSet,
Cannal等),日志采集Flume、埋点接口等实现多种异构数据的采集
3. 将采集的数据统一通过消息队列(Kafka)完成高并发的数据吞吐,同时实现数仓及计算引擎的解
耦
4. Spark/Flink计算引擎完成数据的ETL处理及实时数据的统计,并将数据推送到Kafka,
5. 有Doris的入库程序完成Kafka数据的入库
6. 对外通过doris和消息队列对外提供数据服务
7. 数据质量管理是实现对从数据采集到数据ETL处理,数据存储及数据服务全生命周期的数据管理,
包括元数据,数据质量,数据规范、数据安全
剩余45页未读,继续阅读
资源评论
码到三十五
- 粉丝: 1w+
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功