数据仓库是一种专门设计用于数据分析和决策支持的数据库系统。在这个烟草公司数据仓库实验中,我们看到了一系列关键概念和技术的应用。
数据仓库的目标是提高公司的效益,通过收集、整合和存储来自不同业务系统的数据,使其更适合分析。在这个案例中,烟草公司的业务需求集中在对销售业绩的多角度分析,如按时间(年、季、月、日)、公司、产品种类、子类型和部门等维度进行。
在需求分析阶段,明确了五个主要的业务需求,这些需求构成了数据仓库设计的基础。这包括按时间周期进行销售分析、针对各公司、各种卷烟产品以及各个部门的销售业绩评估。
数据源的选择至关重要,它们是构建数据仓库的数据基础。在本实验中,数据源包括公司代码表、卷烟代码表和销售事实数据表,这些表提供了必要的信息来满足上述业务需求。
接着,确定了四个主要的主题或领域:时间、公司、产品和部门。这些主题对应着维表,维表是用来描述事实表中事件的上下文。例如,时间维包含日期关键字、日历日、日历月、日历季度、日历半年度和日历年度等信息;公司维包括公司ID、名称、上级公司ID等;产品维则有产品关键字、产品名称等;部门维包括部门关键字、部门ID和部门名称。
事实表模型是数据仓库的核心,它包含了度量值,如销售数量和销售金额,这些是进行分析的关键指标。在本例中,事实表包括了公司、产品、日期和部门的关键字,这些键与维表关联,提供了丰富的分析视角。
元数据管理是数据仓库不可或缺的部分,它提供了关于数据仓库结构、内容和管理的描述性信息。在这个实验中,元数据涵盖了销售主题的描述、目的、联系人信息、事实表和维表的详细信息,以及数据加载、存档和更新的规则。元数据还强调了数据质量的重要性,要求数据必须准确反映每个分公司的销售状况,且粒度细化到单个产品,不进行汇总。加载规则规定了数据每日更新的时间和流程,确保数据的及时性和有效性。
数据仓库的设计还考虑了数据的存档和更新策略,以保持数据仓库的性能和容量。旧数据会定期存档,并在一定时间后从仓库中删除,以优化查询效率。
这个数据仓库实验展示了如何从需求分析出发,通过选择合适的数据源,构建面向主题的维表和事实表,以及有效的元数据管理,来构建一个支持决策分析的数据仓库系统。这样的系统能够帮助烟草公司深入理解其销售业绩,从而制定更有效的商业策略。