收稿日期:20150623;修回日期:20150811 基金项目:浙江省自然科学基金资助项目(Y1090416);浙江省自然科学基金资助项目
(Y1091084)
作者简介:胡国生(1966),男,江西新建人,副教授,博士研究生,主要研究方向为图像处理、数据处理、机器人视觉(huguo_sheng@163.com);
杨海涛(1967),男,重庆丰都人,教授,博士研究生,主要研究方向为非线性分析、偏微分方程及其应用.
基于量化误差与分形理论的
高计算效率无监督聚类研究
胡国生
1
,杨海涛
2
(1.广东食品药品职业学院 软件学院,广州 510520;2.浙江大学 数学学院,杭州 310027)
摘 要:已有的矢量聚类算法需学习较多的复杂数据方可获得较好的聚类效果,而对于多维的大数据性能较
弱,为此提出一种基于量化误差与分形理论的高计算效率无监督聚类算法。首先,为数据集建立量化误差的参
数化模型,基于数据集的空间结构获得数据集的率失真曲线;然后通过对率失真曲线的估算,获得数据空间的有
效维度;最终利用分形理论,通过搜索数据集的量化模型参数获得目标数据集的最优类簇数量。实验结果表明,
该量化误差参数化模型可较好地估算数据集的有效维度,同时,本算法对数值型数据集的最优类簇估算与计算
效率优于已有的矢量聚类算法。
关键词:分形理论;量化误差;率失真曲线;无监督聚类;多维数据
中图分类号:TP3016 文献标志码:A 文章编号:10013695(2016)10291904
doi:10.3969/j.issn.10013695.2016.10.009
Quantizationerrorandfractaltheorybasedhighcomputation
efficiencyunsupervisedclusteringalgorithm
HuGuosheng
1
,YangHaitao
2
(1.SchoolofSoftware,GuangdongFood&DrugVocationalCollege,Guangzhou510520,China;2.SchoolofMathematics,ZhejiangUni
versity
,Hangzhou310027,China)
Abstract:Theexistingvectorclusteringalgorithmneedtolearnalotofcomplexdatainordertogetagoodperformancefor
clustering
,anditdoesnothavegoodperformanceforbigdata.Thispaperproposedaquantizationerrorandfractaltheorybased
highcomputationefficiencyunsupervisedclusteringalgorithmtosolvethatproblem.Firstly,itconstructedaparametricmodel
ingofthequantizationerrorfordataset,gottheratedistortioncurvebasedonthespacestructureofthedataset.Then,itcom
putedtheefficientdimensionalityofthedatasetbyestimationoftheratedistortioncurve.Lastly,itobtainedtheoptimalcluste
ringnumberofthetargetdatasetbyfractaltheory.Experimentsresultshowsthattheproposedquantizationerrormodelingcan
estimatethequantizationerrorverywellandtheproposedalgorithmhasbetterperformanceinsearchthebestclusteringnumber
andcomputationefficiencythantheexistingvectorclusteringalgorithm.
Keywords:fractaltheory;quantizationerror;ratedistortioncurve;unsupervisedclustering;multidimensionaldata
!
引言
矢量量化
[1]
是一种简单高效的无监督学习
[2]
方法,矢量
量化聚类算法是一种自适应数据分类算法,学习的速度是其一
大优势。可将聚类分析定义为:使用较少数量的数据点 (质
心)来代表一个较大数量数据集的问题。聚类过程中,计算数
据集的最优类簇数量是聚类分析的一个重要部分
[3,4]
,若类簇
数量过小,则无法保留与数据集结构的相关信息;若类簇数量
过大,则学习低关联性的数据需浪费较多的资源。目前已有一
些针对矢量量化聚类算法的改进研究,文献[5]针对矢量量化
(
LVQ)聚类算法对初值敏感的问题,将免疫克隆算法用于优
化 LVQ聚类算法的初值,并将改进得到的聚类算法用于对 Iris
数据集进行分类,提高了矢量量化聚类算法的稳定性。文献
[6]提出了一种基于矢量量化的近似谱聚类算法,该算法结合
了谱聚类对于无监督聚类的明显效果,并使用神经网络成功地
对大数据进行量化,且失真极小,最终获得了较高的聚类准确
率。文献[7]提出一种利用斜变换的矢量量化聚类算法,该算
法结合 Kedre旋转矢量误差模型,使用误差向量分割类簇,该
算法对于图像压缩的码书生成具有较好的效果。文献[
8]为
矢量量化聚类提出一个新的目标方程,该方程考虑了对显著特
征的搜索效率以及无监督学习过程的充足性,该算法对复杂数
据具有较好的聚类效果。文献[9]提出一种基于率失真曲线
的参数化模型,并基于该模型设计了一个乘法的成本函数,通
过求解目标成本函数的最优解实现了最优聚类。
上述研究都获得了较好的效果,但仍然具有不足之处。文
献[
5]对数据集的初始化类簇进行了改进,而文献[6,7]则对
矢量量化模型进行了改进,文献[5~7]均需要学习较多的特
征数据点,计算效率较低。文献[8,9]则综合考虑计算效率与
聚类准确率,设计了目标成本函数,虽然相较于文献[5~7],
第 33卷第 10期
2016年 10月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol33No10
Oct.2016