本研究论文介绍了一种基于数据加权策略的模糊C均值(FCM)聚类算法。需要了解什么是FCM聚类算法。模糊C均值算法是一种迭代优化算法,通过最小化目标函数来更新数据集中的样本点,将它们划分到各个聚类中心。这种算法允许样本点属于多个聚类,每个点属于不同聚类的程度由隶属度函数表示。隶属度函数的值介于0和1之间,值越大表示样本点与该聚类中心越接近。
然而,传统的FCM算法存在一些不足之处,特别是当数据集包含噪声或样本分布不均匀时,算法的聚类效果可能不佳。噪声样本点可能会干扰聚类中心的正确确定,而忽视样本数据分布特征会降低聚类的质量。为了解决这些问题,研究者们提出了一种改进的数据加权策略,以强化高密度样本点在聚类中心调整中的影响力。
数据加权策略的核心思想在于对每个样本点计算其密度值,以此作为样本点的权值。计算密度的方法之一是使用k近邻(k-NN)算法,根据样本点的邻近点数量和距离来估计密度值。算法通过权值的引入,优先考虑那些处于高密度区域的样本点,这些点往往能够代表数据的真实分布,而且更可能是潜在的聚类中心。
在基于数据加权策略的FCM算法中,初始聚类中心被限制在高密度样本点区域,并在后续迭代过程中通过样本点的密度值加权调整聚类中心。这样做的好处是,能够突出高密度样本点在聚类中心调整中的作用,从而提高整体聚类的准确性。
研究论文中还提到,通过使用人造数据集和UCI真实数据集进行实验验证,结果显示新算法在保持原有时间复杂度不变的前提下,能够获得比传统FCM算法更高的聚类准确率。
关键词中的“模糊聚类”、“模糊C均值算法”和“数据加权”是对该研究主题的直接描述。模糊聚类强调了聚类的不确定性和隶属度的柔性,模糊C均值算法具体指明了改进所针对的算法,而数据加权则突出了该论文改进FCM算法的核心策略。关于算法的符号部分,例如min J(X, U, v1, v2, …, vc)中的J代表目标函数,X表示数据集,U表示隶属度矩阵,v1, v2, …, vc 表示聚类中心,μij是样本点i对于聚类中心j的隶属度,dij是样本点i到聚类中心j的距离,m是权重指数,用于控制模糊程度。
提到的DOI编号为10.3969/j.issn.1001-506X.2014.11.32是该论文的数字对象标识符,用于在学术文献数据库中唯一标识这篇论文。在论文作者信息部分,列出了作者的姓名、所属机构和作者的联系信息,包括邮政编码。这显示了该研究论文的出处和作者们的研究背景。
论文的英文摘要部分提到了FCM算法和数据加权策略(data-weighted strategy),强调了研究的改进点,即通过样本点的密度值调整聚类中心。在摘要中也提到了实验结果,支持了算法改进的有效性。
本研究论文介绍了一种新的聚类算法,该算法考虑了样本数据的分布特征,并且通过引入数据加权策略,改进了传统FCM算法的不足。在实际的测试中,该算法表现出了在不增加时间复杂度的前提下,获得了更好的聚类效果。这为数据挖掘和模式识别领域提供了新的思路和工具。