![](https://csdnimg.cn/release/download_crawler_static/85633092/bg1.jpg)
聚类集成(Clustering Ensemble)是近年来数据挖掘算法的研究热点之一,
它借鉴集成学习的思想,通过融合函数来集成多个不同的聚类算法或同一聚类算
法在不同参数下生成的聚类结果,最终获得比单一聚类算法更稳定更有效的结果。
随着信息技术的迅速发展,人们获取数据变得越来越容易,由于数据本身粗糙、模
糊、不确定性的存在和人类认知层次的差异性,使得要想在结构复杂、动态递增
的海量数据中寻找有用的知识信息变得更加困难。
粒度计算(Granular Computing,GrC)作为信息处理的一种新的观念和计算
范式,为我们处理不精确、不确定信息提供了一整套的理论、方法、技术和工具。
它较好地模拟了人类在求解复杂问题时,从不同角度和不同粒层进行分析处理的
能力,通过逐步尝试、由粗到细的办法,选择合适的粒度空间从而获得令人满意的
解决方案。
本文应用粗糙集、模糊集等主要理论模型,结合半监督学习方法,基于粒度计
算的思想从多层次多角度对聚类集成算法进行优化改进。主要的研究内容包括以
下几个方面:(1)针对聚类集成算法中,生成的基聚类结果存在不确定性、模糊性
和重叠性,并且最终聚类结果的准确性容易受低质量基聚类成员的干扰等问题,
从粒度计算的角度,提出一种基于知识粒度的聚类集成选择算法。
采用粒度距离(Granular Distance)的概念度量基聚类结果间的相似性,保
证基聚类结果质量的同时增大了相互之间的差异性,有利于提高最终结果的质量;
在融合函数的设计上,根据知识粒度的粒度值越小,知识的分辨能力越强原理,对
共联矩阵元素的生成方法进行优化改进,得到更符合现实数据结构的样本相似度
度量。(2)传统的聚类集成选择算法通常把基聚类结果看作一个整体,采用评估指