没有合适的资源?快使用搜索试试~ 我知道了~
银行传统数据仓库向大数据平台迁移探索.docx
0 下载量 163 浏览量
2024-04-18
14:03:32
上传
评论
收藏 2.27MB DOCX 举报
温馨提示
试读
27页
银行传统数据仓库向大数据平台迁移探索.docx
资源推荐
资源详情
资源评论
银行传统数据仓库向大数据平台迁移探索
【摘要】面对业务发展、数据化转型等各方面的需求,基于传统架构的
银行数据仓库体系面临极大的挑战。某银行目前既有传统架构的数据仓库,也
引入了基于主流 Hadoop 体系的大数据平台。为优化数据重复加工与存储,促进
信息管理应用的数据融合共享,本文在采用大数据技术构建统一的企业级数据
管理平台,重构数据仓库方面进行了探索,以论证传统数据仓库往大数据平台
迁移的可行性,为某银行在大数据战略上的规划提供一定的支持。探索过程涉
及现状调研安排、架构设计、模型迁移与优化、数据迁移、ETL 迁移、数据访
问接口的迁移、容量规划等多个核心环节,并依照该行的特点进行了一些有意
义的尝试。
一、银行大数据平台建设背景
在全球经济进入数字化转型时期,数字化转型已成为传统企业必须付诸行动的
必选题。当下数字化转型已经渗入人们日常的衣食住行、工作生活、生产服务
等方方面面。在消费金融具有极大发展潜力及前景的情况下,银行进行数字化
转型更为迫切。
而面对数字化转型的需要,银行体系中的传统数据仓库普遍面临极大的挑战:
(1)现有数据仓库的数据分析模式,不能有效支撑数据快速分析和价值发现,
需要新的交互模式发掘数据的统计相关性、因果关系、关联关系等规律。
(2)数据源不断增多,访问和数据同步变得复杂。
(3)数据量增大、应用作业不断增加,运行沉重缓慢。
(4)难于支撑海量非结构化数据存储与检索需求,如影像数据、音频数据。
我行使用传统数据仓库多年,虽然尚未完全触碰到上述问题的极限情况,数据
仓库依然稳定的在支撑我行业务的运作,但随着业务的发展,上述传统数仓的
困境在我行也有了一定的展现。为提前布局,灵活应对,我们进行了多种尝
试,包括继续深挖现有系统潜力、迁移到大数据平台等。
经过对业界和同行的调研,我们了解到,相当部分的银行最终选择了将数据仓
库迁移到大数据平台,而我行从 2017 年开始,已经引入了源于 Hadoop 体系的
科技大数据平台,具备迁移的能力。下文是我们结合同业经验,在我行探索环
境中实验的,对我行数据仓库进行模拟迁移中所作的一些探索经验。
二、软件架构选型
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,Hadoop 框架最
核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而
MapReduce 则为海量的数据提供了计算。Hadoop 是当前世界企业管理大数据的
基础支撑技术。
分布式文件系统 HDFS:
HDFS(Hadoop Distributed File System),作为 Google File System
(GFS)的实现,是 Hadoop 项目的核心子项目,是分布式计算中数据存储管理
的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于
廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得
性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large
Data Set)的应用处理带来了很多便利。
HDFS 的架构如下图所示:
一般情况下副本系数为 3,HDFS 的副本放置策略是:将第一个副本放在本地节
点,将第二个副本放在本地机架上的另一个节点,而第三个副本放到不同机架
上的节点。这种方式减少了机架间的写流量,从而提高了写的性能。机架故障
的机率远小于节点故障。这种方式并不影响数据可靠性和可用性的限制,并且
它确实减少了读操作的网络聚合带宽,因为文件块仅存在两个不同的机架,而
不是三个。文件的副本不是均匀的分布在机架当中,1/3 的副本在同一个节点
上,1/3 副本在同一个机架上,另外 1/3 个副本均匀地分布在其他机架上。
分布式计算框架 MapReduce:
MapReduce 是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三
层含义:
(1)它是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。
它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分
布和并行计算集群。
(2)它是一个并行计算与运行软件框架(Software Framework)。它提供了一
个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,
自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计
算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统
底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
(3)它是一个并行程序设计模型与方法(Programming Model &
Methodology)。它借助于函数式程序设计语言 Lisp 的设计思想,提供了一种
简便的并行程序设计方法,用 Map 和 Reduce 两个函数编程实现基本的并行计算
任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编
程和计算处理。
三、服务器架构选型
目前市面上主流的服务器有 intel X86 架构和 ARM 架构。
X86 架构于 1978 年推出的 Intel 8086 中央处理器中首度出现。X86 架构(The
X86 architecture)是微处理器执行的计算机语言指令集,指一个 Intel 通用
计算机系列的标准编号缩写,也标识一套通用的计算机指令集合。X86 架构的
强大并不在于它本身,而在于围绕着它所建立起来的:软件生态。而 X86 架构
上面建立了各种各样的基于 X86 指令架构的程序,这就是它的强大之处。
ARM 架构过去称作进阶精简指令集机器(AdvancedRISCMachine,更早称作:
AcornRISCMachine),是一个 32 位精简指令集(RISC)处理器架构,其广泛地
使用在许多嵌入式系统设计。由于节能的特点,ARM 处理器非常适用于移动通
讯领域,符合其主要设计目标为低耗电的特性。
在性能方面,对于大数据负载来说,英特尔
®
至强
®
可扩展处理器为代表的 x86
处理器性能高于 ARM 处理器。在生态方面,大数据平台选择得到充分验证和优
化的硬件平台尤为重要,大数据工作负载在 Intel X86 平台上已经适配多年,
有着很好的成熟度,也不需要企业对软件(如移植)进行额外投资,对于 IT 人
员来说,也能快速掌握在 Intel X86 平台上的开发运维。例如 Spark、Deep
Learning、MongoDB 等,英特尔
®
至强
®
可扩展处理器都有经过验证的优化指南。
剩余26页未读,继续阅读
资源评论
平头哥在等你
- 粉丝: 0
- 资源: 3979
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Qt开发知识、经验总结 包括Qss,数据库,Excel,Model/View等
- IV数据.xlsx
- foldcraftlauncher_262944.apk
- 珍藏多年的基于matlab实现潮流计算程序源代码集合,包含多个潮流计算程序.rar
- 使用FPGA实现串-并型乘法器
- 基于matlab实现针对基于双曲线定位的DV-Hop算法中误差误差出一种基于加权双曲线定位的DV-Hop改进算法.rar
- 基于matlab实现由遗传算法开发的整数规划,车辆调度问题.rar
- 电视家7.0(对电视配置要求高).apk
- 免费计算机毕业设计-基于JavaEE的医院病历管理系统设计与实现(包含论文+源码)
- 手机端 我的世界融合植物大战僵尸版.apk
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功