【免费】基于云计算平台Hadoop的并行k_means聚类算法设计研究

需积分: 0 158 浏览量更新于2022-08-04 收藏 347KB PDF 举报

基于云计算平台Hadoop的并行k_means聚类算法设计研究该研究探讨了在数据库技术和互联网迅速发展的背景下，处理大量数据的需求日益增加，这为聚类算法带来了新的挑战。作者深入研究了如何在云计算平台Hadoop上实现并行k-means聚类算法，并提出了具体的设计方法和策略。云计算, Hadoop平台, 并行k-means, MapReduce 【正文】随着信息技术的快速发展，大数据已成为企业和科研机构面临的普遍问题。传统的单机聚类算法如k-means在处理大规模数据集时往往效率低下，因此，基于分布式计算的并行k-means算法应运而生。Hadoop作为主流的云计算平台，以其优秀的数据处理能力和高可扩展性，成为了实现并行k-means的理想选择。 k-means算法是一种广泛应用的无监督学习方法，用于将数据集分割成多个类别，使得同类内部的数据点间距离最小，异类数据点间距离最大。然而，当数据量巨大时，k-means的迭代过程会变得极其耗时。通过将k-means算法与Hadoop的MapReduce模型结合，可以实现数据的分布式处理，显著提高计算效率。在Hadoop平台上，Map阶段负责将原始数据分片并分配给各个节点，每个节点独立执行k-means的中心初始化和数据点分配步骤。Reduce阶段则汇总各节点的结果，更新聚类中心，并返回给Map阶段进行下一轮迭代。这种设计充分利用了分布式系统的并行计算能力，实现了数据的高效处理。该研究中，作者进行了多个不同规模数据集的实验，结果表明所提出的并行k-means算法在加速比、扩展率和数据伸缩性方面表现出色，能有效应对海量数据的分析需求。加速比是指并行算法相对于串行算法的运行时间改进，扩展率则衡量系统在增加资源时性能提升的程度，而数据伸缩性反映了算法处理更大数据量的能力。这些指标的优良性能证明了该并行算法在云计算环境中的实用性和有效性。此外，文章还讨论了算法设计过程中的关键问题，如数据分布的均衡性、通信开销的减少以及中心点的同步策略等，这些都是确保并行k-means算法高效运行的关键因素。通过对这些问题的深入探讨和优化，作者提供了有价值的解决方案，为后续的并行聚类算法研究提供了参考。基于Hadoop的并行k-means聚类算法设计研究为处理大数据集提供了一种可行且高效的途径，对于大数据挖掘和分析领域具有重要的理论与实践意义。随着云计算技术的不断发展，这类并行算法的研究将继续推动大数据处理技术的进步。

第

３８

卷

第

１０

期

２０１１

年

１０

月

计算机科学

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

Ｖｏｌ．３８Ｎｏ．１０

Ｏｃｔ

２０１１

到稿日期

：

２０１０

－

１１

－

０１

返修日期

：

２０１１

－

０３

－

２１

本文受国家自然科学基金

（

６０９３３００４

，

６０９７５０３９

，

６１０７２０８５

），

国家

９７３

项目

（

２００７ＣＢ３１１００４

），

西北师范大学青年教师科研能力提升计划骨干项目

（

ＮＷＮＵ

－

ＬＫＱＮ

－

１０

－

１

），

湘潭大学博士启动基金

（

１０ＱＤＺ４２

），

湖南省教育厅一般项目

（

０９Ｃ９６７

）

资助

。

赵卫中

（

１９８１－

），

男

，

博士

，

讲师

，

主要研究领域为机器学习

、

数据挖掘

、

算法分析与设计

，

Ｅ

－

ｍａｉｌ

：

ｚｈａｏｗｅｉｚｈｏｎ

ｇ

＠

ｇ

ｍａｉｌ．ｃｏｍ

；

马慧芳

（

１９８１－

），

女

，

博士

，

副教授

，

主要研究领域为机器学习

、

数据挖掘

；

傅燕翔

（

１９７９－

），

女

，

讲师

，

主要研究领域为人机界面交互

；

史忠植

（

１９４１－

），

男

，

研究员

，

博士生导师

，

主要研究领域为人工智能

、

机器学习

、

神经计算

、

认知科学

。

基于云计算平台

Ｈａｄｏｏ

ｐ

的并行

ｋ

－

ｍｅａｎｓ

聚类算法设计研究

赵卫中

１

，

４

马慧芳

２

，

４

傅燕翔

３

史忠植

４

（

湘潭大学信息工程学院

湘潭

４１１１０５

）

１

（

西北师范大学数学与信息科学学院

兰州

７３００７０

）

２

（

湘潭大学机械工程学院

湘潭

４１１１０５

）

３

（

中国科学院计算技术研究所智能信息处理重点实验室

北京

１００１９０

）

４

摘

要

随着数据库技术的发展和

Ｉｎｔｅｒｎｅｔ

的迅速普及

，

实际应用中需要处理的数据量急剧地增长

，

致聚类研究面临

许多新的问题和挑战

，

如海量数据和新的计算环境等

。

深入研究了基于云计算平台

Ｈａｄｏｏ

ｐ

的并行

ｋ

－

ｍｅａｎｓ

聚类算

法

，

给出了算法设计的方法和策略

。

在多个不同大小数据集上的实验表明

，

设计的并行聚类算法具有优良的加速比

、

扩展率和数据伸缩率等性能

，

适合用于海量数据的分析和挖掘

。

关键词

云计算

，

Ｈａｄｏｏ

ｐ

平台

，

并行

ｋ

－

ｍｅａｎｓ

，

Ｍａ

ｐ

Ｒｅｄｕｃｅ

Ｒｅｓｅａｒｃｈ

ｏｎ

Ｐａｒａｌｌｅｌ

ｋ

－

ｍｅａｎｓ

Ａｌ

ｇ

ｏｒｉｔｈｍ

Ｄｅｓｉ

ｇ

ｎ

Ｂａｓｅｄ

ｏｎ

Ｈａｄｏｏ

ｐ

Ｐｌａｔｆｏｒｍ

ＺＨＡＯ

Ｗｅｉ

－

ｚｈｏｎ

ｇ

１

，

４

ＭＡ

Ｈｕｉ

－

ｆａｎ

ｇ

２

，

４

ＦＵ

Ｙａｎ

－

ｘｉａｎ

ｇ

３

ＳＨＩ

Ｚｈｏｎ

ｇ

－

ｚｈｉ

４

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｘｉａｎ

ｇ

ｔａｎ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｘｉａｎ

ｇ

ｔａｎ

４１１１０５

，

Ｃｈｉｎａ

）

１

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｍａｔｈｅｍａｔｉｃｓ

ａｎｄ

Ｉｎｆｏｒｍａｔｉｏｎ

，

Ｎｏｒｔｈｗｅｓｔ

Ｎｏｒｍａｌ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｌａｎｚｈｏｕ

７３００７０

，

Ｃｈｉｎａ

）

２

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｍｅｃｈａｎｉｃａｌ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｘｉａｎ

ｇ

ｔａｎ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｘｉａｎ

ｇ

ｔａｎ

４１１１０５

，

Ｃｈｉｎａ

）

３

（

Ｋｅ

ｙ

Ｌａｂｏｒａｔｏｒ

ｙ

ｏｆ

Ｉｎｔｅｌｌｉ

ｇ

ｅｎｔ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｐｒｏｃｅｓｓｉｎ

ｇ

，

Ｉｎｓｔｉｔｕｔｅ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｉｎ

ｇ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｃｈｉｎｅｓｅ

Ａｃａｄｅｍ

ｙ

ｏｆ

Ｓｃｉｅｎｃｅｓ

，

Ｂｅｉ

ｊ

ｉｎ

ｇ

１００１９０

，

Ｃｈｉｎａ

）

４

Ａｂｓｔｒａｃｔ

Ｉｎ

ｔｈｅ

ｐ

ａｓｔ

ｄｅｃａｄｅｓ

，

ｄａｔａ

ｃｌｕｓｔｅｒｉｎ

ｇ

ｈａｓ

ｂｅｅｎ

ｓｔｕｄｉｅｄ

ｅｘｔｅｎｓｉｖｅｌ

ｙ

ａｎｄ

ａ

ｍａｓｓ

ｏｆ

ｍｅｔｈｏｄｓ

ａｎｄ

ｔｈｅｏｒｉｅｓ

ｈａｖｅ

ｂｅｅｎ

ａｃｈｉｅｖｅｄ．Ｈｏｗｅｖｅｒ

，

ｗｉｔｈ

ｔｈｅ

ｄｅｖｅｌｏ

ｐ

ｍｅｎｔ

ｏｆ

ｄａｔａｂａｓｅ

ａｎｄ

ｐ

ｏ

ｐ

ｕｌａｒｉｔ

ｙ

ｏｆ

Ｉｎｔｅｒｎｅｔ

，

ａ

ｌｏｔ

ｏｆ

ｎｅｗ

ｃｈａｌｌｅｎ

ｇ

ｅｓ

ｓｕｃｈ

ａｓ

ｍａｓｓｉｖｅ

ｄａｔａ

ａｎｄ

ｎｅｗ

ｃｏｍ

ｐ

ｕｔｉｎ

ｇ

ｅｎｖｉｒｏｎｍｅｎｔ

ｌｉｅ

ｉｎ

ｔｈｅ

ｒｅｓｅａｒｃｈ

ｏｎ

ｄａｔａ

ｃｌｕｓｔｅｒｉｎ

ｇ

．Ｗｅ

ｃｏｎｄｕｃｔｅｄ

ａ

ｄｅｅ

ｐ

ｒｅｓｅａｒｃｈ

ｏｎ

ｐ

ａｒａｌｌｅｌ

ｋ

－

ｍｅａｎｓ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｂａｓｅｄ

ｏｎ

Ｈａｄｏｏ

ｐ

，

ｗｈｉｃｈ

ｉｓ

ａ

ｎｅｗ

ｃｌｏｕｄ

ｃｏｍ

ｐ

ｕｔｉｎ

ｇ

ｐ

ｌａｔｆｏｒｍ．Ｗｅ

ｓｈｏｗｅｄ

ｈｏｗ

ｔｏ

ｄｅｓｉ

ｇ

ｎ

ｐ

ａｒａｌ

－

ｌｅｌ

ｋ

－

ｍｅａｎｓ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

ｏｎ

Ｈａｄｏｏ

ｐ

．Ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

ｏｎ

ｄｉｆｆｅｒｅｎｔ

ｓｉｚｅ

ｏｆ

ｄａｔａｓｅｔｓ

ｄｅｍｏｎｓｔｒａｔｅ

ｔｈａｔ

ｏｕｒ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｓｈｏｗｓ

ｇ

ｏｏｄ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｏｎ

ｓ

ｐ

ｅｅｄｕ

ｐ

，

ｓｃａｌｅｕ

ｐ

ａｎｄ

ｓｉｚｅｕ

ｐ

．Ｔｈｕｓ

ｉｔ

ｆｉｔｓ

ｔｏ

ｄａｔａ

ｃｌｕｓｔｅｒｉｎ

ｇ

ｏｎ

ｈｕ

ｇ

ｅ

ｄａｔａｓｅｔｓ．

Ｋｅ

ｙ

ｗｏｒｄｓ

Ｃｌｏｕｄ

ｃｏｍ

ｐ

ｕｔｉｎ

ｇ

，

Ｈａｄｏｏ

ｐ

，

Ｐａｒａｌｌｅｌ

ｋ

－

ｍｅａｎｓ

，

Ｍａ

ｐ

Ｒｅｄｕｃｅ

１

引言

聚类是数据挖掘中重要的研究课题之一

。

所谓聚类

，

就

是将物理或抽象对象的集合组成为由类似的对象组成的多个

类或簇的过程

。

由聚类生成的簇是一组数据对象的集合

，

同

一簇中的对象尽可能相似

，

而不同簇中的对象尽可能相异

［

１

］

。

随着数据库技术的成熟和数据应用的普及

，

商业

、

企业

、

科研

机构或者政府部门都积累了大量的

、

以不同形式存储的数据

。

如何存储

、

处理这些海量数据

，

以及进一步从中挖掘出有用

的

、

可以指导应用的知识

，

成为一个棘手的问题

。

在面对海量

数据时

，

现有的聚类算法在时间复杂性和空间复杂性上遇到

了瓶颈

，

这也是聚类算法研究领域中亟需解决的问题之一

。

解决该问题的一个思路就是将并行处理技术应用到聚类中

，

设计出高效的并行聚类算法

，

来提高聚类算法处理海量数据

时的性能

。

云计算作为一种新兴的商业计算模型得到了人们的广泛

关注

［

２

－

５

］

。

Ｈａｄｏｏ

ｐ

是一个可以更容易开发和并行处理大规模

数据的云计算平台

，

它的主要特点包括扩容能力强

、

成本低

、

效率高以及可靠性好等

。

Ｈａｄｏｏ

ｐ

平台由两部分组成

：

Ｈａ

－

ｄｏｏ

ｐ

分布式文件系统

（

ＨＤＦＳ

）

［

６

］

和

Ｍａ

ｐ

Ｒｅｄｕｃｅ

计算模型

［

７

］

。

ＨＤＦＳ

采用

Ｍ

／

Ｓ

架构

，

一个

ＨＤＦＳ

集群是由一个管理节

点

（

Ｎａｍｅｎｏｄｅ

）

和一定数目的数据节点

（

Ｄａｔａｎｏｄｅ

）

组成

，

每个

节点均是一台普通

ＰＣ

。

在使用上

，

ＨＤＦＳ

与单机上的文件系

统非常类似

，

同样可以建目录

，

创建

、

复制

、

删除文件

，

查看文

件内容等

。

但其底层实现上是把文件切割成块

，

然后这些块

分散地存储于不同的数据节点上

。

每个块还可以复制若干

６６１

下载后可阅读完整内容，剩余3页未读，立即下载

资源推荐

资源评论

郭逗

粉丝: 33
资源: 318

基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中1

最新资源

基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中1

计算机研究 -基于Hadoop的并行小波聚类算法.pdf

计算机研究 -基于云计算平台Hadoop的聚类研究.pdf

基于云计算平台Hadoop的线路参数并行辨识算法研究.pdf

面向大数据挖掘的Hadoop框架K均值聚类算法(毕业论文).caj

基于云计算平台Hadoop的并行kmeans聚类算法设计研究_(1)1

基于云计算Hadoop平台下K-Means聚类方法的研究与改进.pdf

一种基于Hadoop云计算平台大数据聚类算法设计.pdf

基于Hadoop云计算平台的聚类K-means算法的研究与实现.pdf

基于云计算平台Hadoop的HKM聚类算法设计研究.pdf

自适应布谷鸟搜索的并行K-means聚类算法

基于Hadoop云计算平台的新浪微博数据聚类分析算法研究.pdf

基于Hadoop的聚类算法并行化分析及应用研究_陈爱平

基于Hadoop平台的-并行特征匹配算法-研究

基于Hadoop云计算平台的数据处理系统的研究与设计.pdf

基于云计算的Hadoop大数据平台挖掘算法及实现研究.pdf

基于云计算平台Hadoop的聚类神经网络算法的研究与实现_刘珊珊

分布式K-means聚类算法研究与实现.pdf

基于高斯核函数的K-means聚类在分布式下的优化.pdf

基于Hadoop云计算平台的文本处理算法的研究与改进.pdf

基于Hadoop平台的Apriori算法的并行化研究与实现论文.docx

最新资源