![](https://csdnimg.cn/release/download_crawler_static/89278759/bg1.jpg)
社区、谱聚类
• 社区相关概念
• 谱聚类概述
• 无向权重图G
• 邻接矩阵W
• 拉普拉斯矩阵L
• 割值函数Cut
• 谱聚类算法流程
• 谱聚类代码及运行结果
• 谱聚类算法总结
目录
聚类 主要思想: 聚类算法要把M个数据点按照分布分成K类(很多算法的K是人为提前设定的)。我们希望通过聚类算法得到 K个中心点,以及每个数据点属于哪个中心点的划分。 中心点可以通过迭代算法来找到,满足条件:所有的数据点到聚类中心的距离【L2距离】之和是最小的。 中心点确定后,每个数据点属于离它最近的中心点。 如何寻找中心点? 采用 EM算法 迭代确定中心点。流程分两步: ① 更新中心点:初始化的时候以随机取点作为起始点;迭代过程中,取同一类的所有数据点的重心(或质心)作为新中心点② 分配数据点:把所有的数据点分配到离它最近的中心点。 重复上面的两个步骤,一直到中心点不再改变为止。 优点: 简单易用 缺点: 1:中心点是所有同一类数据点的质心,所以聚类中心点可能不属于数据集的样本点。 2:计算距离时我们用的是L2距离的平方。对离群点很敏感,噪声(Noisy Data)和离群点(Outlier)会把中心点拉偏,甚至改变分割线的位置。 3:对初始化敏感,初始化点是随机点