【大型国有银行数据平台应用迁移之路】涉及到的知识点主要集中在银行数据平台的系统架构优化、迁移过程、选型策略以及具体的技术实施细节上。以下是详细的内容解析:
1. **系统架构问题与挑战**:
- 当前系统基于Oracle RAC和Teradata一体机,这种架构缺乏弹性,无法灵活应对变化的业务需求。
- 数据处理能力存在瓶颈,导致数据处理时间过长,影响业务体验和决策效率,特别是在处理复杂如反洗钱系统的任务时,数据报送延迟严重。
- 系统以描述型分析为主,缺乏预测性分析功能,无法对未来的业务进行前瞻性预测。
- 审计合规方面缺乏统一平台,不能满足业务需求。
- 由于Teradata一体机的专有性质,多次扩容成本高昂。
2. **解决方案与选型**:
- 为了改善系统性能和降低运营成本,银行选择了具有海量并行处理能力、无共享架构、基于开放X86服务器的Pivotal Greenplum作为新一代大数据处理产品。
- Pivotal Greenplum提供弹性架构,可按需扩展,且与SAS无缝集成,支持库内挖掘和智能分析,以提高处理海量数据的效率。
3. **迁移过程**:
- 迁移前,需进行详细的范围分析,明确迁移的范围,包括数据区、数据、脚本、作业和模型。
- 环境准备涉及测试环境和生产设备的准备,以及数据库、ETL和调度环境的搭建。
- 数据模型迁移涉及DDL转换,将Teradata的DDL脚本转化为Greenplum的语法。
- 数据初始化采用自研的“数据同步组件”进行全量或增量数据复制。
- 脚本迁移需要考虑语法和函数差异,开发相应的迁移工具。
- 调度迁移需确保作业配置的正确转移。
- 数据一致性校验确保迁移后数据的准确性和完整性。
- 应用切换需在验证无误后,将应用系统从Teradata切换至Greenplum。
4. **迁移步骤详解**:
- 范围分析:这是关键的第一步,包括识别迁移范围,分析数据区、作业依赖关系,确定需迁移的作业、脚本和模型。
- 数据模型迁移:使用DDL转换工具将Teradata的DDL转换为Greenplum的语法,同时考虑字段类型转换规则。
- 数据初始化:考虑负载和速度,设计最小化迁移范围的策略,同时满足应用需求。
5. **迁移风险与应对**:
- 范围分析的准确性直接影响后续迁移工作的顺利程度,不完整或错误的分析可能导致返工。
- 数据一致性校验是确保业务连续性的关键环节,必须在应用切换前完成。
总结,大型国有银行数据平台应用迁移是一项复杂的工程,涉及到系统架构的优化选择、详尽的迁移规划和执行,以及技术实施中的诸多细节。通过选用适合的新技术,如Pivotal Greenplum,银行能够提升数据处理能力,降低成本,增强系统的灵活性和前瞻性,以更好地服务于业务需求和合规要求。