论文研究-基于MapReduce的ACO-K-means并行聚类算法.pdf


-
针对K-means算法处理海量数据存在严重的内存不足,提出利用MapReduce并行化K-means,但是普通的K均值存在收敛速度慢、易陷入局部最优和对初始聚类中心的选取等局限性,因此选择了经ACO改进过的ACO-K-means聚类算法。实验结果表明,经MapReduce并行化的ACO-K-means,不仅具有良好的加速比和扩展性,其收敛性以及聚类精度均得到了改善。
虞倩倩,戴月明,李晶晶:基于 MapReduce bACo-K- means并行聚类算法 2013,49(16)119 41Map数的设计 每次 Reduce任务结束之后,判断偏离误差ξ是否小于 Map函数的任务是完成每一个蚂蚁到信息源的信息素给定的阙值,若小于,则算法收敛结束。反之,则用本轮的 的计算,由此得到何一只蚂蚁的转移概率,最后重新标记聚类中心文件替换上一轮的中心文件,并启动新一轮的 其属于的新聚类类别,其输入为待聚类所有记录数据和上 Mapreduce Job 轮迭代(或初始聚类)的聚类中心,输入数据记录 图3为基于 Mapreduce的ACO-k- means算法处理数据 (key,wale)对的形式为(行偏移量,记录行);每个Map函的流程图。在 Reduce务之前,可对Map任务执行节点本地 数都读入聚类中心描述文件,Map函数对输入的每个记录的中间结果进行shum排序,以提高 Reduce务的效率。 点计算出到所有中心点的转移概率 Transp? obabilit;,输 (开始 出中间绐果(key, value)对的形式为( centerindex,poin), 其中, centerIndex,为第i中心点的索引号, point为当前i 输入 lev, value)) 计算转移 (key, value)→ 录点的坐标。Map函数的伪代码如下: 数据集(行偏移量,坐标)概率密度 (中心点索引 号i,坐标j void map( Writeable key, Text point)( 不 for( int i=0; i<k;il 1)i 变化小于给 (key,wle)→(中(kegy,vale)→(中心 定阙值 点索引号新点索引号,标1 dislance-Distance( puinL, center[i]); 的中心点坐标)坐标2,…,坐标刀) 计算每个妈蚁到聚类中心的信息素 计算转移概P(l) 结束 if(P2(t)>P0){ 图3基于 Mapreduce的并行ACO- K-means聚类算法的处理 currentCluster ID=i 5实验和结果分析 Emit. Intcrmcdiatc( currentClustcr ID. point) 5.1实验环境 实验环境由江南大学物联网工程学院提供如图4。实 验用11个节点测试ACO-K- means并行聚类算法,其中 42 Reduce函数的设计 台作为 master,其他10台作为 slaves。每台节点硬件配置如 educe kk数的任务是根据Map函数得到的中间结果下:CPU型号为 Intel CoreTM i3M30,主频240GIz;内 计算出新的聚类屮心,供下一轮 Mapreduce Job使用,输存为4GB;硬盘为2TB;板载 Broadcom NetLink Gigabit 入数据(key, value)对的形式为( centerindex,poin);所有 Ethernet网卡型号。软什配置如下: Linux red hat As ke相同的记录(即有相同类别D的记录送给一个 Reduce60;JDK1.6.0.29; Hadoop0.210. master上部署 Hadoop的 任务—累加key相同的点个数和各记录分量的和,求各分 NamcNodc和 Job tracker, slaves上部署 Task Tracker和 量的均值。得到新的聚类屮心喵述文件:输出结果(key, value) Datanodc o 对的形式为( centerPoint, points),其中 centerinaex 为第i 1 Submit joh「 Namenode master Client 中心点的索引号, points为隶属于第i中心点的所有数据 Job Tracker1921680.1 Reduce所数的伪代码如下 heartbeat /hearbeat hearbeat void reduce( Writable key, Iterator Point Writable poinLs DataNod Datanode DataNode Num=0 Task Tracker TaskTracker Tasktracker while( points has Next) slave slave Point Writable currentPoint" points next(): l92.1680.2 92.16×.0.3 192.168.0}.ll Num i=currentPoint get Num() 图4实验室的云计算平台 for(i=0: i< dimension: i- 5.,2单机处理比较实验 um[]+=currentPoint point[1]; 521收敛速度的比较 实验内容为比较ACO-K- mcans聚类算法与K- mcans for(i-0: i<dimension i mean i]=sum i]/Num 聚类算法在处理相同数据的条作下,它们各自完成聚类所 需要迭代的次数。处理数据集为分成8类具有20000个数 Emit( key, mean 据集的二维数据。出表1可知,ACO- K-mcans聚类算法具 有较快的收敛速度,这是因为ACO具有很好的全局收敛 性,且减小了 K-means对初始聚类中心选择的影响。 120 013,49(16) Computer Engineering and Applications计算机工程与应用 表1收敛速度比较 53集群加速比性能实验 尝试次数K- neans聚类算法ACO-K- means聚类算法 加速比是同一个任务在单处理器系统和并行处理器 系统中运行消耗的时间的比率,用来衡量并行系统或程序 并行化的性能和效果以及扩展性。 本文实验数据是有关大规模地震资料的数据。利用 基于 Mapreduce的ACO-K- means聚类算法对今年发生的 地震的类别进行聚类实验。实验分别采用3组地震资料数 7 据集,如表3所示,每条记录均由3维数值型的数据组成, 要求生成8个聚类类别,初始聚类屮心随机产生 522单机处理数据负荷比较 实验內容为比较 Hadoop集样屮的1个运算节点与 表3实验数据集情况 ACO-K- means聚类算法在处埋相同规模数据以及相同哽 数据果大小MB记录数/0数据占用HDFS 原始文件 块数空间MB 件配置环境下,从数据读入到完成ACO-K- means聚类所需 1392.64 5.18406 14976 要的时问。实验屮,ACO-K- means聚类算法由Java实现。 ABC 4048.7410.369715162 31104 该算法的缺点是当数据量逐渐增大时,算法的时间复杂度 6533.12 2.049332313 0096 会急剧増长且会出现内存不足等现象。运行时,将JM的 实验1将10个 Task tracker节点逐渐参与计算,并观 内存设置为IGB,以及 Mapreduce所利用的JM同样设察它们各自完成聚类所消耗时间的加速比。实验时,根据 管为1GB。单机实验数据来自于UCI官方网站提供的聚样本数的大小,调节每个节点运行时的最大map数和最大 类数据,试验中,将数据逐渐增大,观察实验所耗时间,实 reduce数,以充分利用 Hadoop的集群能力。实验结果如图 验情况见表1(x1为单机上使用 ACO-K-means聚类算法所5所小。从图中可以看出:当随着节点数增加时,相同数据 用时间;x,为1个运算节点完成 ACO-K-mcans聚类算法听集的聚类所消耗时间具有良好的加速比,且当数据规模逐 用时间),其中1-3为2维数据,生成4个聚类类别。4-8为渐增加时,加速比具有良好的稳定性,这说明基于 Mapreduce 3维数据,生成8个聚类类别,初始聚类中心随机产生。 的ACO-K- means聚类算法具有处理大规模数据的能力。 由上述实验结果可以看出,随着输入数据的增长, ACO-K- means的运行内存等资源消耗增大,致使机器性能 下降,直至报告内存不足且不能完成计算任务。单机 三 Hadoop的实验结果可以看出当数据量很小时, Hadoop的 运算能力远远不如 ACO-K-means聚类算法,这是因为 12345678910 MapReduce每次启动map和 reduce消耗的时问比例较大, 节点数 而实际的计算时间在总消耗时间中所占比例较小。但是, 图5某于 Mapreduce的ACO-K- m cans的 加速比实验结果 同样可以看出,当 ACO-K-means聚类算法达到内存不是而 不能计算时, Hadoop依然能进行聚类运算,由此可初步看 实验2分别选择3,6,9个 Task tracker节点,对应选择A, 出,利用 MapReduce并行化ACO-k- eans聚类算法之后 B和C数据集进行计算,实验结果如图6所示,从图中可以看 具有处理大规模数据的能力。 出:当节点数和处理数据的规模呈正比增长时, Mapreduce 处理数据的能力基本保持稳定,表现出了良好的扩展性。 表2单机处理实验结果 实验次数文件大小B样本数10° TI/S 840 芒1.0 251904 l3312 120.09 26726.4 l6.0 76.69 131.21 节点数 66867 内存不足 184 图6基于 Mapreduce的ACO-K- means的扩展性实验 668672 400 内存不足1945 (下转

-
2019-09-07
584KB
论文研究-基于MapReduce的并行SFLA-FCM聚类算法.pdf
2019-09-12模糊C均值算法(Fuzzy C-Means,FCM)是目前应用比较广泛的一种聚类算法。FCM算法的聚类质量依赖于初始聚类中心的选择并且易陷入局部极值,结合混合蛙跳算法(Shuffled Frog Le
257KB
k_means聚类算法的MapReduce并行化实现
2014-10-15利用k_means聚类算法的MapReduce并行化实现,为学习hadoop的同学提供参考
3.38MB
论文研究-自适应布谷鸟搜索的并行K-means聚类算法.pdf
2019-07-22针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算
947KB
论文研究-基于MapReduce的FCM聚类集成算法.pdf
2019-07-22模糊C-均值(FCM)聚类集成算法是一种利用集成思想提高聚类质量的方法。针对FCM聚类集成算法随着数据量的增加时间复杂度过高的问题,提出一种基于MapReduce框架的并行FCM聚类集成算法。首先利用
458KB
论文研究-基于MapReduce的最大团算法.pdf
2019-09-20论文研究-基于MapReduce的最大团算法.pdf, 随着社会发展,个体之间的关系日益复杂,给传统的社会网络分析方式带来了新的挑战和机遇.MapReduce框架的产生解决了这种问题,它提供了简单的
561KB
论文研究-基于MapReduce的并行模糊C均值算法.pdf
2019-09-10模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值,使其符合MapReduce的基于
630KB
论文研究-基于MapReduce的随机抽样K-means算法.pdf
2019-09-10K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapR
583KB
自适应布谷鸟搜索的并行K-means聚类算法
2018-06-29针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means聚类改进算法,并利用MapReduce编程模型实现了改进算法
1.4MB
论文研究-基于改进的并行K-Means算法的电力负荷聚类研究.pdf
2019-09-10电力企业通常根据电力负荷数据,采用传统的K-Means算法对客户进行划分,而这种方法最大的缺陷就是必须由用户手动指定聚类簇数。提出了一种将Canopy算法和K-Means算法结合应用于负荷聚类的方法,
929KB
论文研究-基于MapReduce的大规模数据集流形学习降维研究.pdf
2019-09-20论文研究-基于MapReduce的大规模数据集流形学习降维研究.pdf, 信息技术的快速发展导致了数据规模的爆炸式增长,传统的机器学习、数据挖掘算法面临新的 挑战. 流形学习克服了传统线性降维算法的
1.93MB
论文研究-基于MapReduce的H-mine算法.pdf
2019-07-22频繁模式挖掘是一种非常有效地从数据中获取知识的方法,但是随着大数据时代的来临,现有算法及其计算环境的运算速度、内外存容量面临严峻挑战。针对以上问题,紧密结合MapReduce模型提供的高效分布式编程和
859KB
论文研究-基于MapReduce的分布式改进随机森林学生就业数据分类模型研究.pdf
2019-09-20论文研究-基于MapReduce的分布式改进随机森林学生就业数据分类模型研究.pdf, 教育数据挖掘(educational data mining)是当代教育信息化发展的前沿研究领域,正在吸引越来
762KB
论文研究-基于MapReduce模型带准备时间的平行机调度优化.pdf
2019-09-20论文研究-基于MapReduce模型带准备时间的平行机调度优化.pdf, 研究了一类基于MapReduce模型的平行机调度问题.每个工件包含Map和Reduce两道加工工序,Map工序可以分割为若干
2.4MB
论文研究-基于MapReduce计算模型的并行关联规则挖掘算法研究综述.pdf
2019-07-22随着数据的爆炸式增长,传统的算法已不能适应大数据挖掘的需要,需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型,因其使用简单、伸缩性好、自动负载均衡和自
703KB
论文研究-基于MapReduce的海量数据挖掘技术研究.pdf
2019-09-12MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚
888KB
论文研究-基于MapReduce的并行PLS过程监控算法实现.pdf
2019-09-07偏最小二乘算法(PLS)是现代工业过程常用的多变量统计过程监控方法之一,然而在现代工业背景下,采用单台PC对大规模工业过程数据进行PLS回归分析的时间复杂度较高。针对此问题,在Hadoop云平台上提出
565KB
论文研究-基于MapReduce的Canopy-Kmeans改进算法.pdf
2019-09-13针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展
481KB
论文研究-基于MapReduce并行化视频分析的研究与实现 .pdf
2019-08-16基于MapReduce并行化视频分析的研究与实现,易晓晔,詹志强,论文提出一种利用MapReduce编程模型加速视频处理过程的方法。随着大数据时代的到来,面对视频数据急速增长,此方法可以高效地处理海
2.87MB
论文研究-基于MapReduce的无线城市社团发现算法研究.pdf
2019-09-07对于无线城市数据中社团发现问题,针对已有的团搜索(CS)算法运行过程生成大量重复团、生成结果冗余、算法时间复杂度较高等问题,从优化边存储、预先进行边处理、搜索建团入手,用特殊的二叉树结构存储、权重选择
401KB
论文研究-基于MapReduce编程模型的分布式并行计算系统的设计和实现 .pdf
2019-08-14基于MapReduce编程模型的分布式并行计算系统的设计和实现,何皓星,李昕,大数据处理技术对互联网应用本身和企业都具有非常重大的意义。随着互联网业务数量的快速增长,系统中积累的数据也越来越多。如何
378KB
论文研究-基于MapReduce的个性化推荐算法研究 .pdf
2019-08-19基于MapReduce的个性化推荐算法研究,曹一鸣,卢美莲,个性化推荐使得用户从浩瀚信息检索查找中解放出来,成为一种继搜索引擎之后获取信息的重要方式。协同过滤因为其算法简单,能够处
1.58MB
论文研究-基于MapReduce的并行混合混沌加密方案.pdf
2019-07-22为了解决云环境中大数据量加密速度慢的问题,针对云计算环境中多节点的特点,结合混沌加密和MapReduce并行框架,提出一种并行混合混沌加密方案。通过对明文数据进行分组,在分组加密初始化时,混合三维Lo
460KB
论文研究-基于MapReduce的模体发现算法 .pdf
2019-08-19基于MapReduce的模体发现算法,霍红卫,林帅,模体发现对于基因发现和理解基因调控关系有着重要的意义,它是生物信息学中最具挑战性的问题之一。提出了针对PMSP算法的三种数据��
629KB
论文研究-LSHBMRPK-means算法及其应用.pdf
2019-09-08针对传统的k-means聚类算法在处理大数据时算法时间复杂度极高和聚类效果不佳的问题,提出了LSHBMRPK-means算法,即基于局部敏感哈希函数的MapReduce并行化的k-means聚类算法;
973KB
论文研究-基于MapReduce的PageRank算法优化研究.pdf
2019-07-22为了提高PageRank算法的计算效率,提出了基于块结构划分的方法,将网页之间的链接关系转换成网络块间的关系,减少了map和reduce操作的调用次数,降低了I/O传输造成的开销,提高计算的效率。实验
797KB
论文研究-基于MapReduce的大规模社会网络结构分析 .pdf
2019-08-15基于MapReduce的大规模社会网络结构分析,刘国俊,张铭,社会性网络服务(Social Networking Services(SNS)),是旨在帮助人们建立社会性网络的互联网应用服务。在当下的W
557KB
论文研究-一种基于MapReduce的OpenFlow网络属性并行验证算法.pdf
2019-07-22针对OpenFlow网络中流表配置错误引起的转发回路、路由黑洞和访问控制规则失效等问题,提出一种并行的基于MapReduce的OpenFlow网络属性验证算法。通过在map阶段划分规则等价类,在red
-
博客
3.4作业
3.4作业
-
博客
关于引入Aspectjx插件,写AOP时引发的问题,zip file is empty
关于引入Aspectjx插件,写AOP时引发的问题,zip file is empty
-
博客
C++学习笔记
C++学习笔记
-
学院
MySQL NDB Cluster 负载均衡和高可用集群
MySQL NDB Cluster 负载均衡和高可用集群
-
学院
基于Qt的LibVLC开发教程
基于Qt的LibVLC开发教程
-
学院
2021年软考系统规划与管理师-上午历年真题解析视频课程
2021年软考系统规划与管理师-上午历年真题解析视频课程
-
博客
关于QT的 raise 放到顶层函数
关于QT的 raise 放到顶层函数
-
博客
运维到底是干什么的?看完这篇你就懂了
运维到底是干什么的?看完这篇你就懂了
-
学院
app软件测试全栈系列精品课程
app软件测试全栈系列精品课程
-
下载
西雅图301d71-源码
西雅图301d71-源码
-
学院
MMM 集群部署实现 MySQL 高可用和读写分离
MMM 集群部署实现 MySQL 高可用和读写分离
-
博客
PAT (Advanced Level) Practice 1064 Complete Binary Search Tree (30 分)
PAT (Advanced Level) Practice 1064 Complete Binary Search Tree (30 分)
-
学院
Python函数库深度详解(1)
Python函数库深度详解(1)
-
博客
寒假算法训练3-G(连接数字是否相等问题,关键是化简题目中所给条件)
寒假算法训练3-G(连接数字是否相等问题,关键是化简题目中所给条件)
-
下载
使用Matlab进行数字板识别-源码
使用Matlab进行数字板识别-源码
-
下载
kernel-devel-3.10.0-1127.el7.x86_64.rpm
kernel-devel-3.10.0-1127.el7.x86_64.rpm
-
下载
常用的9个网络命令.doc
常用的9个网络命令.doc
-
博客
C++多态动态强制转换
C++多态动态强制转换
-
博客
由硫化铅/硒化物和碲化物(PbX:PbS,PbSe和PbTe)制成的QD钙钛矿量子点
由硫化铅/硒化物和碲化物(PbX:PbS,PbSe和PbTe)制成的QD钙钛矿量子点
-
学院
vue3从0到1-超详细
vue3从0到1-超详细
-
学院
使用vue搭建微信H5公众号项目
使用vue搭建微信H5公众号项目
-
下载
image-recognition-flask-uniapp.zip
image-recognition-flask-uniapp.zip
-
下载
ygorsimoes:$ whoami-源码
ygorsimoes:$ whoami-源码
-
博客
【Java全栈知识体系】
【Java全栈知识体系】
-
博客
7.字符串.rs
7.字符串.rs
-
博客
鸿蒙OS屏幕适配UI设计图解决方案
鸿蒙OS屏幕适配UI设计图解决方案
-
下载
isso:Sphinx扩展名,用于在文档中嵌入Isso注释-源码
isso:Sphinx扩展名,用于在文档中嵌入Isso注释-源码
-
学院
华为1+X认证——网络系统建设与运维(初级)
华为1+X认证——网络系统建设与运维(初级)
-
学院
C和C++课程
C和C++课程
-
下载
图像编辑器 GIMP 2.10.20 中文多语版.zip
图像编辑器 GIMP 2.10.20 中文多语版.zip