论文研究-网格环境下基于Weka4WS的分布式聚类算法.pdf

所需积分/C币:6 2019-07-22 21:56:57 272KB .PDF
收藏 收藏
举报

Weka4WS采用WSRF技术用于执行远程的数据挖掘和管理分布式计算,支持分布式数据挖掘任务。基于Weka4WS和网格环境,尝试了一种新的分布式聚类方法,并成功地将其嵌入到Weka4WS框架中,借助Weka Library实现分布式数据挖掘算法,同时引入了距离代价和混合概率的概念,将网格与Web服务技术融合,以分布式问题求解环境和开源数据挖掘类库Weka为底层支持环境,构建了网格环境下面向服务的分布式数据挖掘体系,并以基于Weka4WS的分布式聚类算法验证了算法的有效性和体系结构的可行性。
4074 计算机应用研究 第27卷 组CT=(N,n,E,,R1,DC)。其中;n=n”,E=,4实验分析 R DO R M、F叫s、s,4.1实验环境和数据 M为局部计算节点数。 本实验在网格坏境下(其中包含一个用户节点和四个计 4)如果性能函数Fmk收敛于某一个值,则算法停止;否算节点,安装相关的网格中间件和Wkn4Ws客户端软件,数 则将新的质心μ1,μ,…,μk继续发给每一个局部节点,亘据集分布在三个不同的计算节点上)采用著名的鸢尾花(is 复步骤2) 数据集,该数据集从加州人学厄文分校(UCI)的机器学习库中 3.2基于混合概率的分布式聚类( a dm ixture pro ba bility dis得到。鸢尾花数据集包含504种鸢尾花的信息,取白三个鸢 尾花种: setosa、Ⅴ tricolour和 Virginica。每个花的特征用下面 lribuled clus bering, APDC) 五种属性描述: sepallength(cm)、 sepalwidth(cm)、 petallength 输入:数据集,初始聚类数 (cm),petalwidth(cm), class 输出:聚类C,聚类个数。 4.2实验结果分析 1)随机初始化K个簇,对于每一个簇Ck(k=1,…,K)第k 表1鸢尾花实验相关数据 簇的中心点为g,协方差矩阵为Σ,混合概率为p(g),仝局 attribute mearl standard deviatior class correlation 节点向每一个局部计算节点发送一个副本。 5.84 0.7826 2)对于所有的局部节点I分别执行以下操作: 3.05 0.4194 a)对于每一个数据对象x,∈D,D,表示节点I处的数据 0.9490 pctalwidth 0.76 0.9565 库,节点处对p(gklx)进行估计,即估计该数据对象属于簇 表2最终的聚类中小 C的概率:p(x)= p(xg)×p(g)其中p(g)是 cluste cluster 3 p(xgk)×P(g 混合概率,并且p(xlg)是高斯分布中的先验概率。 3.42 5.55 p(xlr) : -gi)25LI1-g etalwidth 2.U4 0.24 1.34 2T)det(∑ 表3最终的聚类中心之问的距离 l)对于节点处的每一个聚类C(k=1,…,K),计算局 部的聚类七元组CF1=(N”,G",T,24,73:3,d 5.025 1.805 DC:")。其中:N为实际参与聚类的数据对象数目;d”为局 5.025 3.357 1.805 部计算节点处第k个簇的直径;DCA为局部计算节点处第 表4方差分析结果 k个簇的中心点发生变化后的距离代价变化;G"=∑D CMS Cdf EMS F -log p(xigu)p(gk)]; Tl,- Axed,p(g I x)x; T2 655.74 sepalwidth 20.24 194.2 Erep,p(glx): 73)= EueD, p(g:lx)(x-g)(x-g): di elallengll 736.49 2 4135.97 pelalwidth 133.06 2 0.06 2266.72 注:CMS= cluster mean square;Cdf= cluster df(自白度):EMs=eror N(N-1);DC=TCa=∑Ca(方法同上) n sqare;F(服从(k-1,n-k)的F分布 c)收集各个节点的CF(,并将收集到的信息全部发送到 表5差异分析结果 全局节点。 RRSE RAF RMSE MAE 0.035 484 3)仝局节点根据所有的局部节点信息计算仝局的聚类元 FE: RRSE root relative squared error; RAE=relative absolute crror; RMSE root mean squared error; MAE= mcan absolute error; Ks= kappa statistic; 组CF=(g,2,p(g),d,DC)。其中:=÷m(,2:= CC=correctly class ified IC =incorrectly classified o Hathaway在195年给出了这组测试数据集的实际类中心 =1 p(gn) S TIs d: M (D) M,1%局部位置分别为:Z1=(6.58,2.97,5.55,2.02),Z2=(5.00, > DO 3.42,1.46,0.24),73=(5.93,2.77,4.26,1.32)。从表2的实 计算节点数 验结果来看,本文提出的分布式聚类算法与 Hathaway给出的 结果已经非常接近,聚类中心几乎接近实际的类中心位置。同 4)计算Fm=21.n,[- log 2 dp(xg)p(g)。如时从表1、2和4可以看出,花长度( tallent)和花瓣宽度 果性能函数Fpk收敛于某一个值,则算法停止;否则,将新的 petalwidth)这两个属性的贡献比较大,萼片长度( sepallength) 全局聚类元组CF=(g.,Σ,p(gk),d,DC)继续发给每一个局次之,萼片宽度( sepalwidth)的贡献最小 部节点,重复步骤2)。其中: 表6给出了预测结果中每个类的实例数。其中矩阵的行 Feram P( 是实际的类,矩阵的列是预测得到的类,矩阵元素就是相应測 (2r)de(x4) 试样本的个数。从表6中看出聚类最完美的是Irs- setosa,正 确率达到了100%。 第11期 郑世明,等:网格环境下基于Weka4WS的分布式聚类算法 4075 表6混合矩阵 图7采用APDC算法对数据集进行聚类,结合基于距离代 Iris-sctosa Iris-vcrsicolor Iris-virginica 价的算法,收敛速度快,能在具有噪声的数据中发现任意形状 簇,聚类精度高,正确率达到了99%。 3 168 福彐 图3采用K-mean算法对数据集中 sepallength属性进行聚 类,该算法初始聚类屮心随机选取,受噪声数据的影响较大, 可能会陷入局部最优解,而难以获得全局最优解。由于实验 数据中的噪卢数据很少,聚类效果较好,可以发现任意形状的 聚类,同时实验发现算法对输入数据顺序比较敏感。 图7APDC算法聚类结果 5结束语 本文基于网格环境和Weka4WS,寻找到了一种新的分布 图3K-mean聚类结果( epallength) 式聚类方法,并成功地将其嵌人到Weka4WS框架中,运用We 图4采用FM算法对数据集中 petallength属性进行聚类, ka library实现分布式数据挖掘算法,采用著名的鸢尾花对算 该算法是一种基于统讣模型的分析算法,是K-mean算法的一法进行了测试和分杬,算法在确定样本的分布时引λ了距离代 种扩展,将每一个数据对象以概率权重分配到簇,收敛快,但难价和混合概率的概念,从而使样本描述更加客观地反昳了样本 以实现仝局最优,实验结果将数据集分成了四类(实际数据是的分布规律。本文将网格与We服务技术融合,以分布式问 三类),算法对输入数据顺序不敏感。 题求解环境和开源数据挖掘工具Weka为底层支持环境,构建 了网格环境下面向服务的分布式数据挖掘体系。,并以基于 是 weka4ws的分布式聚类算法验证了算法的有效性和体系的可 家答 行性,对于分布式数据的聚类有较髙的准确率和较好的效果。 参考文献 [1] FOSTER I The physiology of the grid[ M]. Wiley New York, 2003 217-249 [21 TALIA D, TRUNFIO P. Weka4 Ws: a WSRF-enabled Weka toolk 图4EM算法聚类的结果 (petallength distributed data mining on grids[ C]//Proc of the 9th European 图5采用 DBScan算法对数据集中 petal width属性进行聚 ference on Principles and Practice of Knowledge Discovery in Data ba 类,是一种基于密度的算法,将具有足够高密度的区域划分为 ses. Berlin: Springer-Verlag, 2005: 309-320 簇,能在貝有噪声的数据屮发现任意形状簇。 [3 The Weka4 WS user guide EB/OL].(2005-11-18)[2009-03-201 http://grid.deisunical.it/weka4ws 心 [4 PRODROMIDIS A L CHAN P K, STOIFO S J Meta-learning in dis- Lribuled dala mining syslems: issues ad approaches[ M]. Menlo Park. AAAl/MIT Press. 2000-8I-87 [5] CANNATARO M, TALIA D. The knowledge grid[ J. Communica- tions of the ACM, 2003, 46(1): 89-93 [6 CURCIN V, WENDEL P Discovery nel: luw ards a grid of knwledge discovery//Proc of the 8 th International Conference on Know 图5 DBscan算法的聚类结果( pelalwiduhl) ledge Discovery and Data Mining. New York: ACM Press, 2002: 658 图6采用DCDC算法对数据集进行聚类,是一种基于距离 663 [7 RAJKUMAR B. Econumic-baseil dlistrilyuled resource management and 代价的算法,具有全局最优解,能在具有噪声的数据中发现任 scheduling for grid computing D. Melbourne: Monash U niversity 意形状簇,对输入数据顺序不敏感,正确率达到了95%。 2002 [8] ZENG Liang-zhao, BENATALLAH B, ANNE HH, et a! Qos-aware middleware for Web services compasition[J. IEEE Trans on Soft- ware Engineering, 2004, 30(5): 311-327. [9 WANG Bin, LI Shi-yong Simulation research of fuzzy immune nonlin ear PIn control[ J] Journal of Harbin University of Commerce 2006,22(6):72-75 「101孟晓明,基于Weka平台的Web事务聚类算法的研究「J].计算机 图6DCDC算法橐类结果 工程与设计,2009,30(6):1332-1333

...展开详情
试读 4P 论文研究-网格环境下基于Weka4WS的分布式聚类算法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-网格环境下基于Weka4WS的分布式聚类算法.pdf 6积分/C币 立即下载
    1/4
    论文研究-网格环境下基于Weka4WS的分布式聚类算法.pdf第1页
    论文研究-网格环境下基于Weka4WS的分布式聚类算法.pdf第2页

    试读已结束,剩余2页未读...

    6积分/C币 立即下载 >