在云计算环境下的海量数据挖掘与分析.docx资源-CSDN文库

版权申诉

180 浏览量 2023-02-10 21:12:43 上传评论收藏 17KB DOCX 举报

云计算环境下的海量数据挖掘与分析在云计算环境下，海量数据挖掘与分析是当今信息时代的热门话题。随着互联网的蓬勃发展，数据的规模越来越大，从 KB 级发展到 TB 甚至 PB 级海量数据。数据挖掘技术的发展历史表明，数据挖掘的对象变得越来越复杂，从数据库到多媒体数据和复杂社会网络；数据挖掘的需求也从分类、聚类和关联到复杂的演化和预测分析。云计算是一种基于互联网的大众参与的计算模式，其计算资源（包括计算能力、存储能力、交互能力等）是动态、可伸缩、被虚拟化的，并以服务的方式提供。云计算环境下的海量数据挖掘可以满足即时组合的个性化挖掘服务的大众参与需求。为了满足海量数据挖掘的需求，研究人员提出了一系列的并行编程模型，包括pThread 模型、MPI 模型、MapReduce 模型、Pregel 模型和 CUDA 模型等。这些模型可以使用户通过简单的开发来方便地达到并行计算的效果，处理大规模数据更加便捷。 MapReduce 模型是由谷歌公司提出的并行编程框架，它首先为用户提供分布式的文件系统，使用户能方便地处理大规模数据；然后将所有的程序运算抽象为 Map 和 Reduce 两个基本操作，在 Map 阶段模型将问题分解为更小规模的问题，并在集群的不同节点上执行，在 Reduce 阶段将结果归并汇总。 Pregel 模型是由谷歌公司提出的专门针对图算法的编程模型，能够为大规模数据的图算法提供并行支持。一个典型的 Pregel 计算过程将在图上进行一系列的超级步骤（SuperSteps），在每个超级步骤中，所有顶点的计算都并行地执行用户定义的同一个函数，并通过一个“投票”机制来决定程序是否停止。 CUDA 模型是由 NVIDIA 公司提出的一个基于 GPU 的并行计算模型。由于 GPU 在设计需求上与普通 CPU 不同，GPU 的并行计算能力远远高于 CPU，GPU 可以并行处理大量数据，提高数据挖掘的效率。云计算环境下的海量数据挖掘与分析是当今信息时代的热门话题。通过使用并行编程模型，例如 MapReduce 模型、Pregel 模型和 CUDA 模型等，可以满足海量数据挖掘的需求，提高数据挖掘的效率和准确性。

资源推荐

资源详情

资源评论

在云计算环境下的海量数据挖掘与分析【王志春等人】

2011-04-12 17:31

1 引言

目前，人们正处于一个“无处不网、无时不网，人人上网、时时在线”的时代，图

灵奖获得者吉姆 ·格雷(Jim Gray)认为，网络环境下每 18 个月产生的数据量等于

过去几千年的数据量之和。目前互联网的数据具有海量增长、用户广泛、动态变化

等特征。 2010 年， QQ 同时在线的用户超过 1 亿人，淘宝一年交易次数比上年增长

150%，视频服务 Animoto 在 3 天内通过 Amazon 将其服务能力迅速扩展至 75 万用户。

数据挖掘能够发现隐含在大规模数据中的知识，提高信息服务的质量。如伊朗事件

中 twitter 快速传播假消息的识别、 Amazon 和淘宝网中商品关联关系分析，以及优

酷网中视频个性化推荐等。海量数据挖掘在国家安全、国民经济和现代服务业中具

有广泛应用，有助于提升网络环境下信息服务的质量，实现以人为本的信息服务。

从数据挖掘技术的发展历史看，随着互联网的蓬勃发展，数据的规模越来越大，从

KB 级发展到 TB 甚至 PB 级海量数据；数据挖掘的对象也变得越来越复杂，从数据库、

到多媒体数据和复杂社会网络；数据挖掘的需求也从分类、聚类和关联到复杂的演

化和预测分析；挖掘过程中的交互方式从单机的人机交互发展到现在社会网络群体

的交互。这种发展给数据挖掘带来了巨大的挑战：对于网络环境下产生的 TB 级和

PB 级的复杂数据，需要有高效的海量数据挖掘算法；网络环境下大众的广泛参与，

需要在数据挖掘算法中能够融入群体智慧；同时社会网络的迅速发展使得信息服务

的个性化成为必然，要求能够满足即时组合的个性化挖掘服务。

云计算是一种基于互联网的、大众参与的计算模式，其计算资源(包括计算能力、

存储能力、交互能力等) 是动态、可伸缩、被虚拟化的，并以服务的方式提供 [1] 。

具体表现在：云计算的动态和可伸缩的计算能力为高效海量数据挖掘带来可能性；

云计算环境下大众参与的群体智能为研究集群体智慧的新的数据挖掘方法研究提供

了环境；云计算的服务化特征使面向大众的数据挖掘成为可能。同时，云计算发展

也离不开数据挖掘的支持，以搜索为例，基于云计算的搜索包括网页存储、搜索处

理和前端交互三大部分。数据挖掘在这几部分中都有广泛应用，例如网页存储中网

页去重、搜索处理中网页排序和前端交互中的查询建议，其中每部分都需要数据挖

掘技术的支持。

因此，云计算为海量和复杂数据对象的数据挖掘提供了基础设施，为网络环境下面

向大众的数据挖掘服务带来了机遇，同时也为数据挖掘研究提出了新的挑战性课题。

下面将对并行编程模型、基于并行编程模型高效海量数据挖掘算法，以及基于云计

算的海量数据挖掘服务相关研究进行综述。

2 并行编程模型相关方法

为了使用户能够通过简单的开发来方便地达到并行计算的效果，研究人员提出了一

系列的并行计算模型。并行计算模型在用户需求和底层的硬件系统之间搭建桥梁使

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

内容反馈

版权申诉

Cheng-Dashi

粉丝: 106
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip