集团数据研发体系-数据仓库研发规范.docx
本文按照数据仓库研发过程体系的全流程进行叙述。每个流程从简介出发,通过对流程 与规范、过程实施方法进行阐述,其中流程及规范阐述了角色及职责、输入输出件、流程图 信息;过程实施方法则阐述了具体过程及相关模板、%给工具的相关需求及过程的数据质量保障信息。 ### 集团数据研发体系-数据仓库研发规范 #### 1. 引言 ##### 1.1 背景介绍 随着阿里集团数据仓库多年的发展与变革,出现了多种规范与流程并存的情况,这导致了集团内不同业务单元(BU)之间的开发规范和流程存在差异。面对当前存在的问题,例如规范的不统一、流程的复杂度高等,阿里集团决定重新整理、分析并总结现有的多套规范与流程,目的是形成一套统一且标准化的流程与规范,以适应DT时代下的数据仓库研发需求。 ##### 1.2 编写目的 本文档旨在规范化阿里巴巴集团多年积累的数据仓库实践经验,为实际开发提供指导依据。它详细介绍了数据仓库研发过程体系的全流程,每个流程包括简介、流程与规范、过程实施方法等内容。通过这些内容,明确了各个阶段的角色职责、输入输出文档、流程图以及具体实施方法,还包括相关模板和工具的需求,确保数据质量得到保障。 ##### 1.3 适用范围 本文档适用于参与数据产品设计(PD)、数据架构设计、数据仓库ETL设计与开发、测试等相关工作的人员。 #### 1.4 角色职责 在数据仓库的研发过程中,涉及多个角色,每个角色都承担着特定的职责。例如,数据产品经理负责需求管理和需求分析;数据架构师负责模型设计、ETL设计和调度设计等。每个阶段的角色及其具体职责将在后续章节中详细介绍。 #### 1.5 术语定义 - **PD** (Product Designer): 产品经理,负责需求管理和需求分析等工作。 - **BRD** (Business Requirement Document): 商业需求文档,记录商业目标和需求。 - **PRD** (Product Requirement Document): 产品需求文档,详细描述产品的功能和性能需求。 - **DP** (Data Profiling): 数据探查/剖析,指对数据集内部一致性、单值性和逻辑性的统计分析。 - **DQC** (Data Quality Center): 数据质量中心,负责监控和维护数据质量。 - **DIDE** (Data Integrated Development Environment): 数据集成开发环境,提供数据仓库开发所需的集成开发环境。 - **MAPPING**: 使用伪代码形式描述目标表字段生成逻辑的方法。 - **UAT** (User Acceptance Test): 用户验收测试,确保系统满足用户需求的测试阶段。 - **冒烟测试**: 对系统基本功能进行简单测试的过程,主要用于快速检验系统的稳定性。 #### 2. 数据仓库研发流程及规范 ##### 2.1.2 流程与规范 本文档详细描述了数据仓库研发的全过程,包括需求阶段、设计阶段、开发阶段、测试阶段和发布阶段。每个阶段都有明确的流程与规范,例如: - **需求阶段**:主要包括需求管理和需求分析。此阶段需要与需求方充分沟通,理解需求背景,并撰写初步的产品需求文档(PRD)。 - **设计阶段**:涉及模型设计、ETL设计和调度设计。该阶段需制定详细的规范,确保设计符合预期目标。 - **开发阶段**:关注编码规范、流程和原则。开发人员需遵循既定的编码标准来实现设计方案。 - **测试阶段**:提供测试过程和方法模板,确保需求与实现的一致性。 - **发布阶段**:将合格的程序发布到线上系统,确保程序稳定运行并生成准确的数据。 ##### 2.1.3 过程实施方法 在实施过程中,为了提高效率和质量,需要遵循一系列的方法和原则。例如,在需求阶段,数据产品经理需要与原始需求方进行充分沟通,理解需求背景后撰写初步的产品需求文档(PRD),并在“数据仓库需求管理平台”上提交需求。此外,还需要对需求进行评估,考虑技术实现的可能性。 本文档为阿里巴巴集团的数据仓库研发提供了全面的指南,从需求管理到最终发布,每个阶段都有详细的规范和流程指引,旨在确保整个研发过程高效且质量可控。这对于参与数据仓库研发的所有人员来说都是非常宝贵的资源。
- 无可用2024-06-19#运行顺畅 #全网独家
- 粉丝: 0
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助