数据建模分析 1. 建立模型前应该想到的问题。 1.1数据仓库的数据组织是面向主题的,而不是报表。 操作型数据库的数据组织结构面向事物处理任务,各个业务系统之间各自分离,而数 据仓库中的数据是按照一定的主题进行组织的。主题是一个抽象的概念,是指用户使 用的数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相 关。 这和软件编程中的面向对象的概念类似,在项目中要面向一个功能模块的实现,不是 面向一个方法的实现。在我们建模中,也是面向一个分析点的方面。 可以参照以下主题,来判断如何划分主题: !顾客的购买行为 !产品销售情况 !企业生产事物 !原料采购 !合作伙伴关系 !会计科目余额 但是现在的数据仓库实施中,很多数据仓库需求都是来自业务部门的出具的报表的需 求,这样数据仓库的数据模型结构往往来源于报表的数据需求。基于报表的需求要比 没有明确的需求要好,所以现在大多数业务部门更多的是采用报表的需求方式来进行 开发的,这样需求方和实施方都会拥有一个比较明确的界限和口径。 但是面向报表的开发不是最好的,而且有很多缺点。所以我们正确的做法是,要 对现有的报表需求进行细致的分类,分析和调整,不能为了实现单个报表而进行大量 的建模工作。要根据分析的不同内容和主题对报表进行分类,明确报表中每个数据的 定义,统计口径及不同数据之间的关系,建立在整个数据仓库内统一的数据指标定义 ,将数据指标按分析主题及分析维度进行归集,从而形成面向主题的数据类型。 例如:我们的利润表报表,当业务部门发我们一个利润表的报表,作为需求时,我们 应该进行细致的分析,最终我们确定我们面向的主题不是利润表,而是比利润表更大 的一个层次的所有科目业务量的主题,这样我们在做别的报表,例如资产负债表,现 金流量表等报表时,就不用重复建模的工作了,做到了软件工程中的可重用规则。 1.2数据仓库要实现对数据的集成与数据的同构性。 面向事物处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立并且 往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取,清理的基础 上经过系统加工,汇总和整理得到的,必须消除源数据的不一致性,以保证数据仓库 内的信息是关于整个企业的一致的全局信息。 例如:在总公司和分公司之间,某个部门id或公司id名字不一样,不是同构的,比如 一个人家人叫他张三别人叫他小张,这种情况在数据库中一定会被认为是两个人,所 以我们要建立统一的数据字典,来统一数据。 要实现数据的同构性,是一件复杂的工作,涉及到大量的数据转换工作和调研工作。 在数据的获取阶段,要确保所有的数据来源是一致的,或者经过一定的处理后是一致 的。如果数据来源不一样的,那么我们就有必要把数据来源信息也包含在数据仓库中 ,以便在后续的数据转换中对不同来源数据进行分析。 综上所述,我们在项目开始之前,要对现有数据建立统一的数据字典,交付品应该有 一个《XXX数据字典》的文件。 1.3明确数据库历史数据和即时数据 操作型数据库主要关心当前某一个时间段的数据,而数据仓库中的数据通常包含历史 信息,系统记录了企业从过去某一点到目前各个阶段的信息。通过这些信息,可以对 企业的发展历程和未来趋势作出定量分析和预测。 但是数据仓库中还包括即时的数据分析需求,所以我们要安排好历史数据和即时数据 以及明细数据之间的不同存储方式,采用不同的处理方法。根据业务分析需要进行数 据存储划分,对不同的分析要求提供不同明细级别的数据基础。此外,还要对数据或 信息的生命周期有良好的管理,安排好旧的归档工作。 2. sap bi项目流程和分析方法 2.1收集客户需求 用户的需求工作是一个非常关键的环节,因为用户的需求可能详细可能不明确, 也可能会经常变动,所以建模之前要收集足够的信息,要对客户的需求进行深度挖掘 。 1. 组织架构 这一方面不仅仅是报表本身需要的数据,还涉及到系统权限和报表发布等工作的需求 。要了解各个部门的基本业务,业务流程,考核指标,担负职责。了解各个业务部门 对内或对外的主要产品和服务。了解客户的以业务流程,明确bi应该展示的分析内容 是正确建立模型的需要。一般情况下,客户都不能用技术术语去表达他们的需求,所 以有时候需要在技术应用方面的帮组下把他们的需求转化成技术语言。 2.1.2 客户最需要分析的数据指标 对于客户所要分析的数据的整理一般先从数据指标入手,清理指标之间的关系,再结 合分析的维度与报表分析需求进一步细化对指标的界定。数据指标主要指客户要分析 的数据,如金额,数量等,在系统中反映为前面提到的关键值及多个关键值之间的一 系列计算。 在这一步分析时,我们会用到两个模板文件。 收集模板1 如果客户需要其他部门的指标以完成数据分析,或者客户不能给出具体的计算公式, 也应该让客 数据建模分析是数据仓库构建的核心环节,它旨在创建一种结构化的数据表示,支持业务决策和分析。在开始建模前,首要考虑的是数据仓库的数据组织方式,它应该是面向主题的,而非简单地针对报表。面向主题意味着数据是围绕业务关注的重点领域(如顾客购买行为、产品销售、生产事务等)组织的,而不仅仅基于操作型系统的事务处理需求。这样能确保数据仓库提供的信息更全面,便于深入分析。 在实际操作中,由于很多需求源于业务部门的报表需求,这可能导致数据模型过于依赖报表,但这并非最佳实践。正确的方法是对报表需求进行分类、分析和调整,确保模型能够支持不同主题的分析,避免重复建模。例如,针对利润表的需求,应当分析出更高级别的主题,如所有科目业务量,这样在处理其他报表时可以复用已有模型。 数据仓库的另一关键点是数据集成与同构性。由于源数据通常来自异构环境,数据仓库需要消除不一致性和冗余,确保数据的一致性。这涉及数据清理、转换和统一数据字典的建立,以统一命名和数据定义。数据字典是项目初期的重要交付物,有助于后续的数据管理和分析。 此外,数据仓库需要处理历史数据和即时数据。历史数据用于分析企业的发展趋势,而即时数据则满足实时分析的需求。因此,需要根据数据的特性和分析需求,采取不同的存储和处理策略,同时管理数据的生命周期,包括旧数据的归档。 在实施SAP BI项目时,理解客户需求是至关重要的。这不仅包括数据需求,还涉及到系统的权限分配、报表发布等。需要深入了解各部门的业务流程、考核指标,将非技术性的需求转化为技术规格。此外,识别客户最关注的分析数据指标,如金额、数量等,梳理指标间的关系,进一步细化指标定义,以构建准确的分析模型。 数据建模分析是一个涉及需求理解、数据组织、集成、一致性和时间维度管理的复杂过程。它要求项目团队具备深厚的业务知识、数据处理技能,以及与业务部门的有效沟通,以构建出能够支持高效决策的数据模型。
- 粉丝: 193
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助