1.聚类定义
“聚类是把相似的对象通过静态分类的方法分成不同的组别或者
更多的子集( subset ),这样让在同一个子集中的成员对象都有一
些相似的属性” —— wikipedia “聚类分析指将物理或抽象对象
的集合分组成为由类似的对象组
成的多个类的分析过程。 它是一种重要的人类行为。 聚类是将数
据分类到不同的类或者簇这样的一个过程, 所以同一个簇中的对
象有很大的相似性,而不同簇间的对象有很大的相异性。
—— 百度百科
”
说白了,聚类( clustering )是完全可以按字面意思来理解的 —— 将
相同、相似、相近、相关的对象实例聚成一类的过程。简单理
解,如果一个数据集合包含 N 个实例,根据某种准则可以将这 N 个
实例划分为 m 个类别,每个类别中的实例都是相关的,而不同类别
之间是区别的也就是不相关的,这个过程就叫聚类了。
2.聚类过程 :
1) 数据准备 :包括特征标准化和降维 .
2) 特征选择 :从最初的特征中选择最有效的特征 ,并将其存储于向量
中 .
3) 特征提取 :通过对所选择的特征进行转换形成新的突出特征
.