针对论文研究领域中混合属性空间的数据聚类分析问题,陈新泉教授提出了自适应优化相异性度量的基于最小生成树(MST)的半监督聚类方法。该方法的核心目的在于解决混合属性空间数据在没有明确类别标记的情况下如何进行有效的聚类分析,同时兼顾小样本集的类别信息以提高聚类效果。
该研究聚焦于混合属性空间内的数据聚类问题,这种数据集不仅包含了数值型属性,也包含了类别型属性。在这样的数据环境下,找出适合数据分布特性的相异性度量方法尤为重要,因为相异性度量是决定聚类效果的关键因素。所谓相异性度量,是指用于衡量两个数据对象之间差异的一种量化方法。在聚类算法中,好的相异性度量方法能够有效地区分数据点的相似度和相异性,进而提高聚类的准确度。
作者提出了基于决策树的“规则聚类区域”获取方法,这一步骤是为了利用带类别标记的小样本集,通过构建决策树模型,预测并生成潜在的类别区域。这样做的目的是为了在接下来的聚类中使用这些规则指导大样本数据的聚类方向,使得同类数据能够尽可能地聚集在一起。
接下来,该方法通过“异类聚类相离,同类聚类相近”的原则来优化相异性度量。这意味着在相似的分布特性下,将同一类别的数据点之间的距离拉近,不同类别的数据点之间的距离则尽可能地拉远。该原则基于对数据集结构的深入分析,旨在利用已有类别信息指导聚类过程,增强聚类的判别力。
在优化后的相异性度量基础上,研究引入了基于MST的聚类算法。MST(最小生成树)聚类是一种图论方法,其基本思想是利用图论中最小生成树的性质来形成聚类。生成最小生成树的关键在于构建边的权重,这在该方法中正是由优化后的相异性度量来决定的。通过MST算法,能够得到一个多层次的聚类结构,每个节点(数据点)通过边连接到它所属的聚类中。
该半监督聚类方法的优势在于,不仅能够处理大规模无标记的数据集,还能够有效结合小样本集的类别信息,提高聚类的准确性和鲁棒性。仿真实验在多个UCI数据集上验证了该方法的有效性,即相比传统的聚类方法,该方法在一些数据集上展现出了更优的聚类质量。
作者提出了两个有价值的研究展望:一方面是进一步研究自适应优化相异性度量的方法,使之更贴合不同应用场景下的数据特性;另一方面是将该方法应用于更多真实世界的数据集,探索在实际应用中的表现和潜在价值。
关键词“模式识别”指出该方法属于模式识别领域,该领域研究如何使计算机系统能通过学习、识别和理解的方式处理数据。而“半监督聚类”则意味着在聚类过程中部分样本拥有标签信息,研究者希望利用这一信息提升整体聚类效果。“自适应优化”和“相异性度量”则直接描述了该方法的核心机制和目标,即通过自适应机制优化相异性度量,从而提高聚类性能。