没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论














大数据时代-数据仓库基本知识点汇总
一、数据仓库概述
数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,
是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是
单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企
业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库是决
策支持系统(DSS)和联机分析应用数据源的结构化数据环境。数据仓库研究和解
决从数据库中获取信息的问题。
数据仓库,由数据仓库之父比尔·恩门(Bill Inmon)于 1990 年提出,主
要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量
资料,透过数据仓库理论所特有的资料储存架构,作已有系统的分析整理,以
利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进
而支持如决策支持系统(DSS)、主管资讯系统(EIS)、研究支持系统之创建,帮
助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及
快速回应外在环境变动,帮助构建商业智能(BI)。挖掘内部数据价值,产生更
多高质量的内容。
根据统计,每个企业的数据量每 2~3 年时间就会成倍增长,这些数据蕴含
着巨大的商业价值,而企业所关注的通常只占在总数据量的 2%~4%左右。因
此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间
和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术
手段,并把数据转换为信息、知识避免各种无知状态和瞎猜行为,已经成了提
高其核心竞争力的主要瓶颈。数据仓库是把数据转换为信息、知识的一种主要
技术手段。数据仓库是面向分析、挖掘的存储系统。数据仓库,是为企业所有
级别的决策制定过程,提供所有类型数据支持的数据集合。这些数据集合出于

分析性报告和决策支持目的而创建,用于支持研究管理决策。一是为调查研究
作数据支撑,二是为实现需要业务智能的企业,提供指导业务流程改进、监视
时间、成本、量以及控制。
数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件
产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的
操作型数据库中很难或不能得到。数据仓库就是整合多个数据源的历史数据进
行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决
策或商业报表。
二、数据仓库特点
1、面向主题
数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而
数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库
进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。操
作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数
据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向
应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综
合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据
仓库排除对于决策无用的数据,提供特定主题的简明视图。
不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需
求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某
一主题来组织。这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分
析”就是一个主题,对于链家网,“成交分析”就是一个主题。收入、成本、客
户、销售渠道等宏观方向也可以作为主题。

2、数据集成
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中
抽取出,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的
数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和
整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于
整个企业的一致的全局信息。数据仓库的数据主要供企业决策分析之用,所涉
及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下
将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作
很少,通常只需要定期的加载、刷新。
说简单的总结:数据仓库中存储的数据是来源于多个数据源的集成,原始
数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需
要从数据源经过一系列抽取、清洗、转换的过程。
3、相对稳定
数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的
数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被
长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很
少,通常只需要定期的加载、刷新。数据仓库中保存的数据是一系列历史快
照,不允许被修改。用户只能通过分析工具进行查询和分析。

4、历史变化
数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化
的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,
且不随时间改变。数据仓库中的数据通常包含历史信息,系统记录了企业从过
去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些
信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
5、汇总的
操作性数据映射成决策可用的格式。
6、大容量
时间序列数据集合通常都非常大。
7、非规范化
数据仓库中数据大多数是冗余的数据。
8、高效率
数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周
期的数据要求的效率最高,要求 24 小时甚至 12 小时内,客户能看到昨天的数
据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问
题,延迟 1-3 日才能给出数据,显然不行的。
9、数据质量
数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通
常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多
层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户
看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
10、扩展性
之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来 3-5 年
的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运
行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量
数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
三、常用数据仓库工具

Hive 大数据数据仓库工具,一般结合 HDFS 用,Hive 主要优势是免费其它
常用数据仓库还有 Oracle,DB2,AWS Redshift,Greenplum 等数据仓库业界老
大当属 Teradata,其特点:数据仓库配备性能最高、最可靠的大规模并行处理
(MPP) 平台,能够高速处理海量数据,其性能远远高于 Hive。它使得企业可以
专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决
策,实现 ROI(投资回报率) 最大化。不过价钱较贵。
四、数据仓库用途
数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理海量数
据,分析数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的
亮点之一。广义的说,基于数据仓库的决策支持系统由三个部件组成:①数据
仓库技术②联机分析处理技术③数据挖掘技术。其中数据仓库技术是系统的核
心。
数据仓库应用主要使用的技术如下:
①并行
计算的硬件环境、操作系统环境、数据库管理系统和所有相关的数据库操
作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。
②分区
分区功能使得支持大型表和索引更容易,同时也提高了数据管理和查询性
能。
③数据压缩
数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘
系统的成本,新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面
影响。
④可以轻松地管理大小超过 1 TB 的仓库中的超大量数据。(大约 30 亿
条)
⑤64 位体系结构提升了服务器的容量和速度。
⑥改进的索引技术(位图索引、散列索引、星形联接)提供了快速数据访
问。
剩余32页未读,继续阅读
资源评论


hhappy0123456789
- 粉丝: 34
- 资源: 4万+

下载权益

C知道特权

VIP文章

课程特权

开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
