没有合适的资源?快使用搜索试试~ 我知道了~
第六章 聚类分析.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 118 浏览量
2021-10-11
15:25:36
上传
评论
收藏 404KB PDF 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/31221641/0001-b942958fec89685000f18fbec4b46101_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
15页
。。。
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/31221641/bg1.jpg)
聚类分析
在实际工作中,我们经常遇到分类问题。若事先已经建立类别,则使用判别
分析,若事先没有建立类别,则使用聚类分析。
聚类分析主要是研究在事先没有分类的情况下,如何将样本归类的方法。
聚类分析的内容包含十分广泛,有系统聚类法、动态聚类法、分裂法、最优
分割法、模糊聚类法、图论聚类法、聚类预报等多种方法。
在 Matlab 软件包中,主要使用系统聚类法。
系统聚类法是聚类分析中应用最为广泛的一种方法。它的基本原理是:首先
将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程
度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类。
衡量亲疏程度的指标有两类:距离、相似系数。
(1)常用距离
①欧氏距离
假设有两个 n 维样本
x
1
x
11
, x
12
,, x
1n
和
x
2
x
21
, x
22
,, x
2n
,则它们的欧
氏距离为:
d
x
1
, x
2
②标准化欧氏距离
假设有两个 n 维样本
x
1
x
11
, x
12
,, x
1n
和
x
2
x
21
, x
22
,, x
2n
,则它们的标
准化欧氏距离为:
T
sd
x
1
, x
2
x
1
x
2
D
1
x
1
x
2
x
j1
n
1 j
x
2 j
2
其中,D 表示 m 个样本的方差矩阵:
D diagonal
1
,
2
,,
m
,其中
示第 j 个样本的方差。
③马氏距离
假设共有 n 个指标,第
i
个指标共测得 m 个数据(要求
m n
):
x
i1
x
x
i
i2
x
im
2 2 2
2
j
表
于是,我们得到
m n
阶的数据矩阵
X
x
1
, x
2
,, x
n
,每一行是一个样本数据。
m n
阶数据矩阵 X 的
n n
阶协方差矩阵记作
Cov
X
。
两个 n 维样本
x
1
x
11
, x
12
,, x
1n
和
x
2
x
21
, x
22
,, x
2n
的马氏距离如下:
1
![](https://csdnimg.cn/release/download_crawler_static/31221641/bg2.jpg)
x
1
, x
2
x
1
x
2
Cov
X
mahal
1
x
1
x
2
T
马氏距离考虑了各个指标量纲的标准化,是对其它几种距离的改进。马氏距
离不仅排除了量纲的影响,而且合理考虑了指标的相关性。
④布洛克(City Block)距离
两个 n 维样本
x
1
x
11
, x
12
,, x
1n
和
x
2
x
21
, x
22
,, x
2n
的布洛克距离如下:
b
x
1
, x
2
x
1 j
x
2 j
j1
n
⑤明可夫斯基(Minkowski)距离
两个 n 维样本
x
1
x
11
, x
12
,, x
1n
和
x
2
x
21
, x
22
,, x
2n
的明可夫斯基距离:
n
m
x
1
, x
2
x
1 j
x
2 j
j1
p
1
p
注意:
p 1
时是布洛克距离,
p 2
时是欧氏距离。
⑥余弦距离(Cosine distance)
T
X
1
X
2
d
X
1
, X
2
1
T T
X X X X
1 1 2 2
这是受相似形几何原理启发而产生的一种标准,在识别图像和文字时,常用
夹角余弦为标准。
⑦相似距离(Correlation distance)
d
X
1
, X
2
1
X
1
X
1
X
2
X
2
X
1
X
1
X
1
X
1
T
T
X
2
X
2
X
2
X
2
T
(2)Matlab 中常用的计算距离的函数
假设我们有
m n
阶的数据矩阵
X
x
1
, x
2
,, x
n
,每一行是一个样本数据。
在 Matlab 中计算样本点之间距离的内部函数为:
y = pdist(X) 计算样本点之间的欧氏距离
y = pdist(X, ‘seuclid’) 计算样本点之间的标准化欧氏距离
y = pdist(X, ‘mahal’) 计算样本点之间的马氏距离
2
![](https://csdnimg.cn/release/download_crawler_static/31221641/bg3.jpg)
y = pdist(X, ‘cityblock’) 计算样本点之间的布洛克距离
y = pdist(X, ‘minkowski’) 计算样本点之间的明可夫斯基距离
y = pdist(X, ‘minkowski’, p) 计算样本点之间的参数为 p 的明可夫斯基距离
y = pdist(X, 'cosine') 计算样本点之间的余弦距离
y = pdist(X, 'correlation') 计算样本点之间的相似距离
另外,内部函数 yy = squareform(y)表示将样本点之间的距离用矩阵的形式输
出。
(3)常用的聚类方法
常用的聚类方法主要有以下几种:最短距离法、最长距离法、中间距离法、
重心法、平方和递增法等等。
(4)创建系统聚类树
假设已经得到样本点之间的距离 y,可以用 linkage 函数创建系统聚类树,
格式为:z = linkage(y),其中 z 为一个包含聚类树信息的(m –1)×3 的矩阵。例如,
z =
2.000 5.000 0.2
3.000 4.000 1.28
则,z 的第一行表示第 2、第 5 样本点连接为一个类,它们的距离为 0.2,z 的第
二行表示第 3、第 4 样本点连接为一个类,它们的距离为 1.28。
在 Matlab 中创建系统聚类树的函数为:
z = linkage(y) 表示用最短距离法创建系统聚类树
z = linkage(y, ‘complete’) 表示用最长距离法创建系统聚类树
z = linkage(y, ‘average’) 表示用平均距离法创建系统聚类树
z = linkage(y, ‘centroid’) 表示用重心距离法创建系统聚类树
z = linkage(y, ‘ward’) 表示用平方和递增法创建系统聚类树
例 1 在 Matlab 中写一个名字为 opt_linkage_1 的 M—文件:
x=[3 1.7;1 1;2 3;2 2.5;1.2 1;1.1 1.5;3 1];
y=pdist(x,'mahal');
yy=squareform(y)
z=linkage(y,’centroid’)
h=dendrogram(z)
存盘后按 F5 键执行,得到结果:
yy =
0 2.3879 2.1983 1.6946 2.1684 2.2284
2.3879 0 2.6097 2.0616 0.2378 0.6255
2.1983 2.6097 0 0.6353 2.5522 2.0153
1.6946 2.0616 0.6353 0 1.9750 1.5106
2.1684 0.2378 2.5522 1.9750 0 0.6666
2.2284 0.6255 2.0153 1.5106 0.6666 0
0.8895 2.3778 2.9890 2.4172 2.1400 2.4517
z =
2.0000 5.0000 0.2378
3
剩余14页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/6d4a39ec593a4e2fbcf3d53e4855e565_cqn2bd2b.jpg!1)
苦茶子12138
- 粉丝: 1w+
- 资源: 6万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)