在当今的信息时代,随着云计算、物联网、移动通信互联网、社交网络和数据自动采集技术的迅猛发展,人类社会正经历着前所未有的变化。这些技术带来的一个显著结果是海量数据的爆炸式增长。美国互联网数据中心的研究显示,每年产生的数据增长速度大约为50%,平均每两年数据量就会翻一番,而90%以上的数据是在最近几年产生的。大数据时代的到来让数据成为了社会最宝贵的资产之一,其价值已经成为了推动社会发展的重要因素。为了从这些海量数据中挖掘出有价值的信息,云计算数据挖掘平台应运而生,它提供了一种高效处理海量数据挖掘需求的解决方案。
云计算,作为一种通过网络实现资源服务的模式,已经成为主流的网络架构方式。云计算技术包含虚拟化技术、分布式计算技术、分布式存储技术和网络技术等,它将服务当作商品来销售,节约了计算成本,充分利用了计算资源。用户可以像使用水电一样按需获取计算资源,这为组织业务的快速变更和创新升级提供了极大便利。目前,云计算服务主要有三种形式:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。IaaS提供的是未经封装的计算和存储资源,用户可以通过网络直接使用这些资源;PaaS则是提供封装好的计算和存储资源,用户可以通过特定接口和协议使用这些资源;而SaaS让用户无需具备云计算知识和技术,就能直接使用开发商提供的软件。
将传统数据挖掘技术和云计算技术有效结合,可以产生显著的优势。传统数据挖掘模式和方法已无法适应快速增长的数据,而通过云计算实现的三层数据挖掘模型具有快速高效和高可靠性。随着数据量的增加,这种模型的优势愈发明显。有研究表明,在云计算数据挖掘平台上对海量数据进行挖掘的效率显著高于单机系统,且数据量越大效率越明显。
在云计算环境下进行海量数据挖掘的研究,不仅能够解决传统数据挖掘技术无法处理的大量数据问题,而且可以通过并行处理和资源动态分配等技术手段,大幅度提高数据挖掘的速度和准确性。云计算数据挖掘平台的出现,为大数据时代提供了处理海量数据的有效途径,是未来数据挖掘领域发展的重要方向。