聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚
集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行
描述的过程。
与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也
不知道根据哪些空间区分规则来定义组。
它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本
应该足够不相似。
聚类分析的算法 可以分为: 划分法( Partitioning Methods )、层次法
(Hierarchical Methods )、基于密度的方法( density-based methods )、基
于 网 格 的 方 法 ( grid-based methods )、基于模型的方法(Model-Based
Methods )。
经典的 K-means 和 K-centers 都是划分法 。
分类与聚类的区别
聚类分析也称无监督学习或无指导学习,聚类的样本没有标记,需要由聚类
学习算法来自动确定 ; 在分类中,对于目标数据库中存在哪些类是知道的,要做
的就是将每一条记录分别属于哪一类标记出来。聚类学习是观察式学习,而不是
示例式学习。
k-means 算法接受输入量 k ;然后将 n 个数据对象划分为 k 个聚类以
便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的
对象相似度较低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质
心(centriod) 或重心 (center of gravity) 。
k-means 算法的工作过程说明如下: 首先从 n 个数据对象任意选择 k 个
对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中