没有合适的资源?快使用搜索试试~ 我知道了~
企业级电商离线数仓项目-2022
5星 · 超过95%的资源 需积分: 50 17 下载量 170 浏览量
2022-07-22
10:51:58
上传
评论 6
收藏 3.73MB PDF 举报
温馨提示
试读
119页
企业级电商离线数仓项目-2022
资源推荐
资源详情
资源评论
PB
级企业电商离线数仓项目实战【上】
项目背景
人类正从IT时代走向DT(Data Technology)时代。在DT时代,人们比以往任何时候更
能收集到更丰富的数据。IDC 的报告显示:预计到2020年,全球数据总量将超过
40ZB(相当于40 万亿GB),这一数据量是2011年的22倍。正在呈“爆炸式”增长的
数据,其潜在的巨大价值有待发掘。
如果不能对这些数据进行有序、有结构地分类组织和存储,不能有效利用并发掘它,
继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的
垃圾,给企业带来的是令人咋舌的高额成本。
日益丰富的业态,也带来了各种各样、纷繁复杂的数据需求。 如何有效地满足企业
决策层、管理层、员工、商家、合作伙伴等多样化的需求,提高他们对数据使用的满
意度,是数据服务和数据产品需要面对的挑战。
如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,
保证数据的规范性;
如何提供高效易用的数据开发工具;
如何做好数据质量保障;
如何有效管理和控制日益增长的存储和计算消耗,保证数据服务的稳定,保证其
性能;
这些都给大数据系统的建设提出了更多的要求。
这里介绍的电商离线数据仓库项目,正是为了满足不断变化的业务需求,实现系统的
高度扩展性、灵活性以及数据展现的高性能而设计的。整个项目的讲解分为以下几个
部分:
上半部分
数据仓库理论
电商离线数据仓库设计
会员活跃度分析
广告分析
下半部分
核心交易分析
任务调度
血缘关系和数据管理
本文首发公众号:import_bigdata
Github搜索:大数据成神之路
微信搜:import_bigdata
数据质量监控
即席查询
第一部分 数据仓库理论
第1节 数据仓库
1.1 什么是数据仓库
1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(Information
Warehouse)的概念。数据仓库的基本原理、技术架构以及分析系统的主要原则都
已确定,数据仓库初具雏形。
1991年Bill Inmon(比尔·恩门)出版了他的第一本关于数据仓库的书《Building the
Data Warehouse》,标志着数据仓库概念的确立。书中指出,数据仓库(Data
Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳
定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策
(Decision-Making Support)。该书还提供了建立数据仓库的指导意见和基本原
则。凭借着这本书,Bill Inmon被称为数据仓库之父。
1.2 数据仓库四大特征
面向主题的
集成的
稳定的
反映历史变化的
面向主题的
与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进
行组织的。
什么是主题呢?
主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行
分析利用的抽象
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象
本文首发公众号:import_bigdata
Github搜索:大数据成神之路
微信搜:import_bigdata
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的
描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的
联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据
组织的方式具有更高的数据抽象级别。
例如销售情况分析就是一个分析领域,那么数据仓库的分析主题可以是“销售分析”。
集成的
数据仓库的数据是从原有的分散的多个数据库、数据文件、用户日志中抽取来的,数
据来源可能既有内部数据又有外部数据。操作型数据与分析型数据之间差别很大:
数据仓库的每一个主题所对应的源数据,在原有的各分散数据库中有重复和不一
致的地方,且来源于不同的联机系统的数据与不同的应用逻辑捆绑在一起
数据仓库中的数据很难从原有数据库系统直接得到。数据在进入数据仓库之前,
需要经过统一与综合
数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比
较、鉴别,数据仓库中的数据会从多个数据源中获取,这些数据源包括多种类型数据
库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数
据。
本文首发公众号:import_bigdata
Github搜索:大数据成神之路
微信搜:import_bigdata
稳定的
数据仓库数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快
照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
数据稳定主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较
复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据经加工
和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更新。
反映历史变化的
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、
月份、季度或者年份有关。虽然数据仓库不会修改数据,但并不是说数据仓库的数据
是永远不变的。数据仓库的数据也需要更新,以适应决策的需要。数据仓库的数据随
时间的变化表现在以下几个方面:
数据仓库的数据时限一般要远远长于操作型数据的数据时限
业务系统存储的是当前数据,而数据仓库中的数据是历史数据
数据仓库中的数据是按照时间顺序追加的,都带有时间属性
1.3 数据仓库作用
整合企业业务数据,建立统一的数据中心;
产生业务报表,了解企业的经营状况;
为企业运营、决策提供数据支持;
可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;
分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;
开发数据产品,直接或间接地为企业盈利;
1.4 数据仓库与数据库的区别
数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。
OLTP(On-Line Transaction Processing 联机事务处理),也称面向交易的处理系
统。主要针对具体业务在数据库系统的日常操作,通常对少数记录进行查询、修改。
用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。
传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。
本文首发公众号:import_bigdata
Github搜索:大数据成神之路
微信搜:import_bigdata
剩余118页未读,继续阅读
CarsonBigData
- 粉丝: 6049
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页