没有合适的资源?快使用搜索试试~ 我知道了~
基于SQL on Hadoop的数据仓库技术.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 11 浏览量
2022-11-17
03:10:07
上传
评论
收藏 78KB DOCX 举报
温馨提示
试读
16页
基于SQL on Hadoop的数据仓库技术.docx基于SQL on Hadoop的数据仓库技术.docx
资源推荐
资源详情
资源评论
基于 SQL on Hadoop 的数据仓库技术
数据仓库是企业统一的数据管理的方式,将不同的应用中的数据汇聚,
然后对这些数据加工和多维度分析,并最终展现给用户。它帮助企业将
纷繁浩杂的数据整合加工,并最终转换为关键流程上的KPI,从而为决
策/管理等提供最准确的支持,并帮助预测发展趋势。因此,数据仓库
是企业 IT 系统中非常核心的系统。
根据企业构建数据仓库的主要应用场景不同,我们可以将数据仓库分为
以下四种类型,每一种类型的数据仓库系统都有不同的技术指标与要求。
企业会把数据分成内部数据和外部数据,内部数据通常分为两类,OLTP
交易系统以及 OLAP 分析系统数据,他们会把这些数据全部集中起来,
经过转换放到数据库当中,这些数据库通常是 Teradata、Oracle、DB2
数据库等。然后在这上面对数据进行加工,建立各种主题模型,再提供
报表分析业务。一般来说,数据的处理和加工是通过离线的批处理来完
成的,通过各种应用模型实现具体的报表加工。
实时处理数据仓库
随着业务的发展,一些企业客户需要对一些实时的数据做一些商业分析,
譬如零售行业需要根据实时的销售数据来调整库存和生产计划,风电企
业需要处理实时的传感器数据来排查故障以保障电力的生产等。这类行
业用户对数据的实时性要求很高,传统的离线批处理的方式不能满足需
求,因此他们需要构建实时处理的数据仓库。数据可以通过各种方式完
成采集,然后数据仓库可以在指定的时间窗口内对数据进行处理,事件
触发和统计分析等工作,再将数据存入数据仓库以满足其他一些其他业
务的需求。因此,实时数据仓库增强了对实时性数据的处理能力要求,
也要求系统的架构在技术层面上需要革命性的调整。
在一些场景下,企业可能不知道数据的内联规则,而是需要通过数据挖
掘的方式找出数据之间的关联关系,隐藏的联系和模式等,从而挖掘出
数据的价值。很多行业的新业务都有这方面的需求,如金融行业的风险
控制,反欺诈等业务。上下文无关联的数据仓库一般需要在架构设计上
支持数据挖掘能力,并提供通用的算法接口来操作数据。
数据集市
数据集市一般是用于某一类功能需求的数据仓库的简单模式,往往是由
一些业务部门构建,也可以构建在企业数据仓库上。一般来说数据源比
较少,但往往对数据分析的延时有很高的要求,并需要和各种报表工具
有很好的对接。
数据仓库架构的挑战
到了移动互联时代,传统架构的数据仓库遇到了非常多的挑战,因此也
需要对它的架构做更多的一些演变。
首先最大的问题是数据增长速度非常迅速,导致原有的数据仓库在处理
这些数据存在架构上的问题,无法通过业务层面的优化来解决。譬如,
一个省级农信社的数据审计类的数据通常在十几 TB,现有基于关系数
据库或者 MPP 的数据仓库方案已经无法处理这么大数据,亟需一种新
的更强计算能力的架构设计来解决问题。
其次,随着业务的发展,数据源的类型也越来越多。很多行业的非结构
化数据的产生速度非常快,使用传统 Oracle/DB2 的数据仓库并不能很
好的处理这些非结构化数据,往往需要额外构建一些系统作为补充。
再次,在一家比较大的企业内部,因为业务不同企业内部可能会有几百
个数据库,各自建设方案也不同,没有一个简单的办法将数据统一到一
个数据平台上。因此需要一个数据库虚拟化技术,能够通过有效的方式
将各个数据库统一化,有效的进行数据分析和批处理。而在过去,这个
技术并不存在。
最后,过去的数据库没有提供搜索和数据挖掘的能力,而这些需求已经
是企业的刚需。譬如金融行业需要使用复杂的数据挖掘方法代替传统的
规则引擎来做风险控制,而这无法在基于关系数据库的方案中得到解决。
随着 Hadoop 以及 Spark 技术的快速成熟,基于 Hadoop/Spark 的数据
仓库解决方案能有效的解决这些问题和挑战。
基于大数据的数据仓库关键技术
剩余15页未读,继续阅读
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 沈丘盛世龙门图纸符合规范化
- HM3400-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 基于python+streamlit联邦学习进行高校学生成绩预测研究python源码+项目说明+模型+数据.zip
- HM3400D-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- HM3400B-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- spring-boot示例
- 搜集火星资源.py
- JAR应用启动停止脚本化解决方案.zip
- 配合eclipse svn插件subclipse-4.3.4版本的javahl
- Bash脚本教程:如何优雅地停止JAR服务.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功