论文研究-基于堆叠稀疏自编码的模糊C-均值聚类算法.pdf

所需积分/C币:20 2019-09-07 16:01:47 565KB .PDF

针对模糊C-均值聚类算法对孤立点、随机初始化的聚类中心比较敏感的问题,将堆叠稀疏自编码与传统模糊C-均值聚类算法相结合,对传统模糊C-均值聚类算法进行了改进。由于堆叠稀疏自编码可以提取原始数据集从低层到高层的特征,而高层的特征通常比原始数据集更能反映待聚类样本的本质特征,用其代替原始数据集进行聚类,有助于提高聚类的效果。利用改进后的算法在UCI的几个标准数据集上进行实验,结果表明改进后的算法是有效可行的。
156 015,51(4) Computer Engineering and Applications计算机工程与应用 利用拉格朗日乘子法易得,当J取极小值时,对 步骤1采用3.2.1中ZCA白化方法对原始输入数据 应的模糊隶属度和聚类中心分别如下 集X={x1,x2,…,xn}进行预处理,得到X的低冗余性表 1 n X 步骤2用X训练堆叠稀疏自编码器的第一个编码 层,利用极小化重构误差原则调整权重矩阵W和偏置 矩阵B,由公式(7)得到数据集的第一层特征表示∠1。 1.2. (6 Z=fX,+B, (7) 步骤3将第一个稀疏编码层的输岀Z输入到第 具体实现吋时,首先随机初始化聚类中心ν(-1,2,…,c), 个稀疏编码层,同样利用极小化重构误差原则调整权重 矩阵W和偏置矩阵B2,由公式(8)得到数据集的第 然后利用原始样本数据和公式(5)、(6)通过迭代算法对 隶属度un(i=1,2,…,n;j=1,2,…,c)和聚类中心v(= 层特征表示Z2。 z2=f(W2Z1+B2) 1,2,…,c)进行更新。 步骤4根据文献[17]的方法确定最佳聚类数将第二 3.2改进的模糊C-均值聚类学习算法 32.1ZCA白化 个稀自编码层的输出Z2转置后代替原始数据集,最后 利用3,1中传统模糊C均值聚类算法待到相应的聚类结果。 在使用聚类算法之前,为了减少原始数据的冗余 性,需要对数据进行自化处理,使得所有属性的方差 33相关作的比较 相同,不同属性之间不相关或具有较低的相关性。常用 传统模糊C-均值聚类算法和本文提出的改进模糊C- 的一种白化方法是ZCA白化,它可以使得白化后的数均值聚类算法的后半部分是完全相同都是先随机初 据尽可能接近原始数据,并且保持与原始数据相同的维始化聚类中心,利用迭代算法更新模糊隶属度和聚类屮心。 数。设原始数据集有n个样本,每个样本的维数为d, 传统模糊¢-均值聚类算法和本文提岀的改进模糊 则ZCA白化的过程如下 C-均值聚类算法的不同点是传统模籼C-均值聚类算法 (1)首先将原始数据集排成一个d×n的数值矩阵直接利用无标签原始数据集进行模糊求属度利聚类中 X,然后进行使每个属性均值为零的标准化处理,得到心的计算和更新;而本文提出的改进模糊C均值聚类算 的矩阵记为A。 法先采用ZCA白化方法对原始数据集进行预处理,消 (2)计算A对应的样本协方差矩阵Σ,求出相应的除数据之间的冗余性;然后利用堆叠稀琉自编码,逐层 特征值,并按从大到小顺序分别记为λ,λ,…,λ,对应提取原始数据的各级特征,利用更能反映样本数据本质 的特征向量分别记为1,42…,,并记U={u,n2…,n13。属性的高层特征进行模糊聚类分析,有助于提高聚类结 (3)计算旋转后的矩阵 果的准确性和鲁棒性。 实验及结果分析 X=UX 本实验是基于win764位操作系统,CPU为 Intel udx udx2 I5-2450M,2.5GiH,内存为6GB,所川软件为 Matlab 为使旋转后矩阵对应的每个属性具有单位方差,可 2013a。从UCI机器学习数据集中选择四个常用标准数 分别用y/(=1,2,…去乘以矩阵Xm相应第 据集来测试本文提出的改进模糊C-均值聚类算法。实 殓采用含有两个编码层的稀疏自编码结构,同一般神经 终隐层神经元数目一样,两个自编码层神经元的数日 (4)将知阵Xm左乘矩阵U,则得到的知阵X=UXmN和N的确定也没有统一的方法,根据具体数据集的 就是原始数据集zCA白化的结果,矩阵的每一列对应属性数、样本数、类别数等通过实验确定合适的值,如对 ZCA白化后的样本数据 于数据集Iri,M和N2均取20;对于数据集Pima,N1和 在ZCA白化过程中,若存在λ,接近于0,则可在上述 N2分别取100和200。其他参数一般根据经验选取,本 第3步中用1y+6(可取一个很小的正的常数如0.1) 实验中取β=3,p=0.1。 代替1/√,以避免出现数值不稳定或数据上溢的现象 四个标准测试数据集的简单描述如表1所示。 322 SAEFCM算法的主要步骤 将本文所提出的 SAEFCM算法与传统模糊C-均值 以含有两个编码层的堆叠稀疏自編码为例,本文所(FCM)、核模糊C-均值聚类(KFCM)算法在上述四个数 提出的 SAEFCM算法的主要步骤如下: 据集上进行测试。为减少随机化权重、初始聚类中心等 段宝彬,韩立新,谢进:基于堆叠稀疏自编码的模糊C-均值聚类算法 2015,51(4)157 表1数据集描述 参考文献: 数据集名样本数属性数类別数 [1]余凯,贾磊,陈雨强,等深度学习的昨天、今天和明天[]计 150 13 768 3326 算机研究与发展,2013,59(12):1799-1804 2] Ranzato M, Poultney C, Chopra S, et al. Effi cient learning 214 of sparse representations with an energy-based model[c]!/ NIPS,2006, 对聚类结果的影响,每个聚类算法各运行20次,聚类的3] Hinton g e, Osindero s, Tehy w. a fast learning algo 平均正确率比较结果如表2所示,运行时间比较结果如 rithm for deep belief nets[J]. Neural Computation, 2006 表3所示。 18(7):1527-1554 4 Krizhevsky A, Sutskever I, Hinton G E Image Net classifi 表2三种模糊C均值来类算法的平均正确(9 cation with deep convolutional neural netw orks[C]/ 数据集名 SAEFCM FCM KFCM NIPS2012:1106-1114 8933 [5 Dunn J C.A fuzzy rclativc of thc IsoData proccss and 6N.54 71.94 65.89 its use in detecting compact well-separated clusters[ Journal Pima 69.79 67.29 Glass 61.33 60.75 60.98 of Cybernetics, 1973(3): 32-57 16 Bezdek J C Pattern recognition with fuzzy objective function 表3三种模糊C-均值聚类算法的运行时间比较 algoritms[M. New York: Plenum Press, 198 数据集名 SAEFCM FCM KFCM 7]于剑谂樸糊C均值算法的模糊指标[计算机学报,2003 0.36 26(8):968-973 (1.55 ).48 [8 Pham D T, Otri s, Afify A, et al. Data clustering using Pima 739 the bees algorithm[C]/Proceedings of the 40th CIRP Inter- Glass 0.65 0.55 national Seminar on Manufacturing Systems, May 30-June 从表2可以看出,本文所提出的 SAEFCM算法在四 1, 2007, T iverpool, UK, 2007 个标准数据集上的性能均优于传统FCM算法和KFCM9LcH, uang, uo,cta, novel fuzzy weighte 算法,尤其在wine数据集上,聚类正确率提高将近 C-means method for image classification[J. Int J Fuzzy 20%;由于堆叠稀疏自編码提取的特征更能反映样本数 Syst.2008,10(3):168-173. 据的本质属性,因此,提高了聚类的正确率。 [10]蔡静颖,谢福鼎,张永.基于自适应马氏距离的模糊C均 值算法[计算机工程与应用,201046(34):174-176 从表3可以看出,本文所提出的 SAEFCM算法的时 间复杂度较高,在四个标准数据集上的运行时间均远大 l]伍i忠东,晑新波,谢维信基于核方法的模糊聚类算法[J 西安电子科技大学学报:自然科学版,2004,31(4) 于传统FCM算法和KFCM算法,这是由于堆叠稀疏自 533-537. 编码特征学习时需要根据随机的初始权重利用极小化[12] Zouxy Dcep Learning(深度学习)学习笔记整理系列之 重构误差原則优化权重,相应的迭代计算量比较大,尤 py)[eb/ol]-[2014-02-09].http://blog.csdn.net/zouxy09 其当数据集属性数、类别数和自编码层神经元数比较大 article/details 8775524 时运行时间更长,因此, SAEFCM算法虽然提高了聚类[13] Shin h c, Orton m r, Collins d j,etal. Stacked aut 的正确率,但也增加了计算的时间复杂度,因此,本文提 encoders for unsupervised feature learning and multiple 出的 SAEFCV算法对于实吋性要求较高的聚类问题不 organ dctection in a pilot study using 4D paticnt data[I] 太适合。 IEEE Transactions on Pattern Analysis and Machine 2013,35(8):1930-1943 5结束语 [14] Rumelhart D E, Hinton G E, Williams R JLearning repre- 本文对传统模糊C-均值聚类算法进行了改进,提出 senta-tions by back-propagating errors[J]. Nature, 1986 323:53.3-536 了基于堆叠稀疏自编码的模糊C-均值聚类( SAEFCV 算法,给出了算法实现的具体步骤,最后将其用于UCI四 [15 Liu D C, Nocedal J On the limited memory BFGS method 个常用标准数据集的聚类问题中,取得了较好的聚类效果。 for large scale optimization J]. Mathematical Program Ming 1989,45:503-528 出于软硬件限制,本文只采用了两个稀疏自编码层161NgA, Ngiam J, Foo Chuan Yu,etal. WhiteningIEB/OL 的结构进行实验,进一步加深自编码层数是否能显著提 2014-04-12]http://deeplearning.stanfordedu/wiki/index.php 高聚类效果还有待进一步研究。另外,稀疏自编码屮相 Whitening 关参数如何进一步优化如何缩短特征的学习时间等问17]周世兵聚类分析中的最佳聚类数确定方法街究及应用D] 题都有待进一步研究。 无锡:江南大学,2011.

...展开详情
试读 4P 论文研究-基于堆叠稀疏自编码的模糊C-均值聚类算法.pdf
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于堆叠稀疏自编码的模糊C-均值聚类算法.pdf 20积分/C币 立即下载
    1/4
    论文研究-基于堆叠稀疏自编码的模糊C-均值聚类算法.pdf第1页
    论文研究-基于堆叠稀疏自编码的模糊C-均值聚类算法.pdf第2页

    试读已结束,剩余2页未读...

    20积分/C币 立即下载 >