![](https://csdnimg.cn/release/download_crawler_static/25998099/bg1.jpg)
第四章 聚类分析
1
四
种
不
同
形
状
的
聚
类
![](https://csdnimg.cn/release/download_crawler_static/25998099/bg2.jpg)
4.1.1 聚类的定义 —— (79页)
2
意义:任意一个样本都属于其中一个簇,且不会同时属于
两个簇。然而这个只是理想的聚类定义,有时候在实际运
用并不符合该定义
![](https://csdnimg.cn/release/download_crawler_static/25998099/bg3.jpg)
聚类分析:无标签、无先验知识。只能采用某
种相似性度量的方法,利用样本的特征进行归
类
作用:对数据提出初始假设、分类新数据、测
试数据的同类型、压缩数据
发展:由于大多数实际问题涉及高维的聚类,
难以对高维空间的数据进行直观解释,且数据
也不会服从规则现象分布。因此聚类算法仍在
不断发展
4.1 聚类分析 —— (79页)
3
![](https://csdnimg.cn/release/download_crawler_static/25998099/bg4.jpg)
4.1.2 聚类准则 —— (80页)
4
第一种方法:试探法,如距离函数
第二种方法:准则函数,如误差平方和准则
(4-3) 与 (4-4) 相同,都表示 每一个簇的样本均值
![](https://csdnimg.cn/release/download_crawler_static/25998099/bg5.jpg)
4.1.2 聚类准则 —— (80页)
5
(4-5) 与 (4-6) 相同,都表示 误差平方和
各类样本密集,各类样本个数相差不大,且类间距离较大
时,适合采用误差平方和准则
各类样本数相差很大,类间距离较小时,有可能将样本数
多的类分开,使得到的 J 值较小,误以为得到了最优划分