在构建面向大数据的银行数据挖掘平台时,首先需要明确互联网思维和大数据思维的本质。互联网思维的本质是开放、平等和共享,这意味着在构建数据挖掘平台时,需要利用互联网的技术和思维,积极采集用户行为数据,并利用众包的思想搭建微数据挖掘社区,实现业务与业务、业务与技术间的沟通和交流,将数据挖掘需求延伸至用户端,集众人智慧建设和完善数据挖掘平台。而大数据思维的本质是整体思维,即从事物的整体集中发现其前所未知的相关性,因此在构建数据挖掘平台的过程中,不仅要考虑基于样本数据的数据挖掘技术在快速决策方面的意义,也要考虑基于对多种类型海量数据的大数据挖掘技术在战略决策方面的意义。
数据挖掘平台的架构设计是核心,通常分为多个层次。以银行数据挖掘平台为例,其逻辑架构主要包括数据来源层、数据处理层、模型层、业务化层、可视化层和应用层等。数据来源层指的是数据挖掘平台的数据来源,包括数据仓库、源数据、业务外部的结构化及非结构化数据等。数据处理层负责数据的清洗、转换,为数据挖掘对象建模。模型层则是建立、训练、部署数据挖掘模型。业务化层负责将数据挖掘生成的信息和知识落地,逐步形成知识库。可视化层利用计算机图形学技术对数据进行图形、图像、动画等形式的展示,并提供可自定义的灵活可视化手段。应用层则利用微服务理念,基于PaaS方式,建立独立的业务子系统,如信贷决策支持系统、风险决策支持系统等,这些系统共享数据挖掘平台的基础设施资源。
资源管理调度是数据挖掘平台的一个重要组成部分,它主要对平台的各类任务、作业、工作流进行集中调度和监控,保障服务的运行、安全、隔离和同步;同时提供对元数据、系统日志等资源的管理。应用信息采集则基于互联网的开放和众测思想,为每个应用系统进行埋点,主动收集系统使用中的问题并推送调查问卷,引导用户主动反馈信息;通过非结构化数据分析得到优化建议和业务痛点,并通过敏捷开发、持续集成,不断满足业务需求,逐步建立开放式的银行数据挖掘社区。
数据挖掘平台可以构建在私有云上,形成云数据挖掘平台,这是因为云计算的发展使社区云、行业云得到了飞速发展,金融云的建设成为必然趋势。云架构一般分为基础设施层、数据挖掘平台层和数据可视化应用层。基础设施层主要利用集群、并行计算、分布式计算、虚拟化等技术对系统中的物理资源进行云化。数据挖掘平台层主要使用容器、虚拟化技术、分布式技术实现中间件、内存数据库、关系数据库、NoSQL数据库的云化。数据可视化应用层则是基于SaaS模式,提供数据可视化展示。通过云平台,可以实现资源的集约化管理,这对于银行信息资源的有效利用具有重要意义。
在具体技术选型上,基础设施层可以利用商用的如Redhat OpenStack、华为FusionSphere、一体机或者开源的OpenStack、PC-SERVER等实现。数据挖掘平台层则可以使用Oracle、Hadoop、SAS、R、Python等软件,配合数据可视化工具,为用户提供多样化的数据挖掘和分析服务。
构建面向大数据的银行数据挖掘平台是金融信息化发展的重要趋势,这不仅需要充分考虑互联网和大数据思维的融合,还需要依赖先进云计算技术的支持,以及灵活应用各种数据挖掘技术和工具,来满足银行业务快速发展的需求,并为风险管理、业务优化等提供强大的决策支持。