聚类算法基础教程
!
什么是聚类算法?
!
聚类算法是⼀种⽆监督学习⽅法,⽤于将数据集中的样本划分成若⼲个彼此相似的组或“簇”。聚类
的⽬的是在同⼀个簇内的样本尽可能相似,⽽不同簇的样本则尽可能不同。
常⻅聚类算法
!
1. K-Means
2. 层次聚类(Hierarchical Clustering)
3. DBSCAN
4. 谱聚类(Spectral Clustering)
5. 均值漂移(Mean Shift)
K-Means 算法
!
原理
!
K-Means 是最流⾏的聚类算法之⼀,它的⽬标是将数据划分为K个簇,每个簇⽤⼀个聚类中⼼来代
表。
步骤
!
1. 选择K个初始聚类中⼼:随机选择K个数据点作为初始聚类中⼼。
2. 分配样本到最近的聚类中⼼:对于每个数据点,根据其与聚类中⼼的距离将其分配到最近的
簇。
3. 更新聚类中⼼:计算每个簇中所有点的平均值,将该平均值作为新的聚类中⼼。
4. 重复步骤2和3:直到聚类中⼼不再变化或达到预定的迭代次数。
5. 结果:最终的聚类中⼼和每个数据点所属的簇。
Python 实现
!