数据中台设计方法论.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
数据中台设计方法论 数据中台设计方法论是一个系统的设计方法论,旨在帮助企业构建一个数据中台,以便更好地管理和利用数据资源。该方法论涵盖了数据接入、模型建设、ETL 平台、数据资产管理、数据服务等几个方面。 在数据接入方面,需要确认平台接入哪些数据,确认数据接入的方式是实时接入还是离线抽取。离线抽取的话是全量抽取还是增量抽取。抽取频次数每天抽取还是每小时抽取。实时接入可以使用 kafka 实时写入数据到 HDFS 集群上。离线数据可以使用 Sqoop 抽取关系型数据库到 HDFS。 在模型建设方面,模型建设是数据大陆与台湾的重要部分,可以说数据大陆与台湾的成败在于模型建设的好坏。模型分为我们常指的数据仓库的分析模型和我们的一些通用算法模型。数据仓库模型是对业务的数据进行加工和分析,得到有价值的信息,并将其存储在数据仓库中。数据仓库模型的建设需要考虑业务粒度、维度、数据模型等几个方面。 在模型建设过程中,我们需要对数据进行加工,依据我们规划的业务域,对各个业务的数据汇总聚合,构成我们的数据模型。这其中涉及到数据仓库建设,在这简约说下。这是一个简约的数据分层结构。原始数据 ODS,经过清洗成为数仓中的明细数据 DWS 和维度数据 DIM,各个业务的明细数据依据业务域和维度数据关联构成我们的数据模型 DW,不同的 DW 经过聚合构成各个业务目标数据 APP 层。 在ETL 平台方面,我们需要一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。与业务研发不同,数据研发一般很少写具体的需求设计文档。通常就是和业务人员简约的沟通,但是渐渐的你会发觉开发完的任务会一改再改。为了避开此种现象,我们可以依据本人的实际业务整理一份需求模板。其中包括数据来源字段,统计口径,任务调度周期,字段 mapping,粒度,维度,需求方,开发人,目标类型,优先级等。 在数据资产管理方面,我们需要规范的管控和管理数据资产。资产管理最基础的工作是做好元数据的管理,元数据包含了数据的口径,数据模型的释义,模型之间的血缘等等,具体的可以看之前的元数据文章《数据仓库元数据》。将元数据和数据模型统一有序的管理起来构成企业的数据资产。 在数据服务方面,我们需要供应一套数据服务力量,对外统一对接是一件很重要的工作。数据服务标准:数据结构标准化、在线查询实时化、数据开发可视化。数据结构标准化对各个业务板块的数据交互,我们需要供应统一的接口视图,可进行数据的查询、权限管控。在线查询实时化对于各业务的调用,我们需要供应目标级数据口径统一的实时数据结果。数据开发可视化供应数据接口的可视化统一管理页面,开发人员通过通过可视化管理 API,降低接口理解的难度,易于维护。 数据中台设计方法论是一个系统的设计方法论,旨在帮助企业构建一个数据中台,以便更好地管理和利用数据资源。该方法论涵盖了数据接入、模型建设、ETL 平台、数据资产管理、数据服务等几个方面。
剩余6页未读,继续阅读
- 粉丝: 0
- 资源: 7万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助