没有合适的资源?快使用搜索试试~ 我知道了~
第29章 多元分析.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 51 浏览量
2024-04-15
01:17:10
上传
评论
收藏 576KB PDF 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/89137550/0001-171c1e56948fc0b170f0b344a5937e88_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
88页
【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/89137550/bg1.jpg)
-443-
第二十九章 多元分析
多元分析(multivariate analyses)是多变量的统计分析方法,是数理统计中应用广
泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广
泛使用,并在使用中不断完善和创新。由于变量的相关性,不能简单地把每个变量的结
果进行汇总,这是多变量统计分析的基本出发点。
§1 聚类分析
将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程
的研究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物
学中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将
它们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行
研究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具
有更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。
因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,
可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点
开发目标。
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analyses)作
为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。
1.1 相似性度量
1.1.1 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似
程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用
p
个
变量描述,则每个样本点可以看成是
p
R
空间中的一个点。因此,很自然地想到可以用
距离来度量样本点间的相似程度。
记
Ω 是样本点集,距离 ),(
⋅
⋅
d 是
+
→Ω×Ω R 的一个函数,满足条件:
1)
0),( ≥yxd , Ω∈yx, ;
2)
0),(
=
yxd 当且仅当 y
x
=
;
3)
),(),( xydyxd
=
,
Ω
∈
yx, ;
4)
),(),(),( yxdzxdyxd +
≤
,
Ω
∈
zyx ,, 。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类
分析中,对于定量变量,最常用的是 Minkowski 距离
![](https://csdnimg.cn/release/download_crawler_static/89137550/bg2.jpg)
-444-
q
p
k
q
kkq
yxyxd
1
1
),(
⎥
⎦
⎤
⎢
⎣
⎡
−=
∑
=
, 0>q
当
2,1=q 或
+
∞→q 时,则分别得到
1)绝对值距离
∑
=
−=
q
k
kk
yxyxd
1
1
),( , (1)
2)欧氏距离
2
1
1
2
2
),(
⎥
⎦
⎤
⎢
⎣
⎡
−=
∑
=
p
k
kk
yxyxd
, (2)
3)Chebyshev 距离
kk
pk
yxyxd −=
≤≤
∞
1
max),( 。 (3)
在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性
(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
4)马氏(Mahalanobis)距离
)()(),(
1
yxyxyxd
T
−Σ−=
−
(4)
其中
y
x
, 为来自
p
维总体
Z
的样本观测值,
Σ
为
Z
的协方差矩阵,实际中 Σ 往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量
纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
1.1.2 类与类间的相似性度量
如果有两个样本类
1
G 和
2
G ,我们可以用下面的一系列方法度量它们间的距离:
1)最短距离法(nearest neighbor or single linkage method)
![](https://csdnimg.cn/release/download_crawler_static/89137550/bg3.jpg)
-445-
)},({min),(
2
1
21 ji
Gy
Gx
yxdGGD
j
i
∈
∈
=
, (5)
它的直观意义为两个类中最近两点间的距离。
2)最长距离法(farthest neighbor or complete linkage method)
)},({max),(
2
1
21 ji
Gy
Gx
yxdGGD
j
i
∈
∈
=
, (6)
它的直观意义为两个类中最远两点间的距离。
3)重心法(centroid method)
),(),(
21
yxdGGD = , (7)
其中
y
x
, 分别为
21
,GG 的重心。
4)类平均法(group average method)
∑∑
∈∈
=
12
),(
1
),(
21
21
GxGx
ji
ij
xxd
nn
GGD , (8)
它等于
21
,GG 中两两样本点距离的平均,式中
21
,nn 分别为
21
,GG 中的样本点个数。
5)离差平方和法(sum of squares method)
若记
∑
∈
−−=
1
)()(
111
Gx
i
T
i
i
xxxxD
,
∑
∈
−−=
2
)()(
222
Gx
j
T
j
j
xxxxD ,
∑
∈
−−=
21
)()(
12
GGx
k
T
k
k
xxxxD
∪
,
其中
∑
∈
=
1
1
1
1
Gx
i
i
x
n
x
,
∑
∈
=
2
2
2
1
Gx
j
j
x
n
x ,
∑
∈
+
=
21
21
1
GGx
k
k
x
nn
x
∪
则定义
211221
),( DDDGGD
−
−= (9)
事实上,若
21
,GG 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分分离(即
12
D 很大),这时必然有
2112
DDDD
−
−
=
很大。因此,按定义可
以认为,两类
21
,GG 之间的距离很大。离差平方和法最初是由 Ward 在 1936 年提出,
![](https://csdnimg.cn/release/download_crawler_static/89137550/bg4.jpg)
-446-
后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。
1.2 系统聚类法
1.2.1 系统聚类法的功能与特点
系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细
的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
例如,在平面上有 7 个点
721
,,, www (如图 1(a)),可以用聚类图(如图 1(b))
来表示聚类结果。
图 1 聚类方法示意图
记 },,,{
721
www =Ω ,聚类结果如下:当距离值为
5
f 时,分为一类
},,,,,,{
76543211
wwwwwwwG = ;
距离值为
4
f 分为两类:
},,{
3211
wwwG = , },,,{
76542
wwwwG
=
;
距离值为
3
f 分为三类:
},,{
3211
wwwG = , },,{
6542
wwwG
=
, }{
73
wG
=
;
距离值为
2
f 分为四类:
},,{
3211
wwwG = , },{
542
wwG
=
, }{
63
wG
=
, }{
74
wG
=
距离值为
1
f 分为六类:
},{
541
wwG = , }{
12
wG = , }{
23
wG
=
, }{
34
wG
=
, }{
65
wG
=
, }{
76
wG =
距离小于
1
f 分为七类,每一个点自成一类。
![](https://csdnimg.cn/release/download_crawler_static/89137550/bg5.jpg)
-447-
怎样才能生成这样的聚类图呢?步骤如下:设 },,,{
721
www
=
Ω
,
1)计算 n 个样本点两两之间的距离
}{
ij
d
,记为矩阵
nnij
dD
×
=
)(
;
2)首先构造
n
个类,每一个类中只包含一个样本点,每一类的平台高度均为零;
3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高
度;
4)计算新类与当前各类的距离,若类的个数已经等于 1,转入步骤 5),否则,回
到步骤 3);
5)画聚类图;
6)决定类的个数和类。
显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定
义,有可能得出不同的聚类结果。
1.2.2 最短距离法与最长距离法
如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离
法(又称最近邻法),最先由 Florek 等人 1951 年和 Sneath1957 年引入。下面举例说明
最短距离法的计算步骤。
例 1 设有 5个销售员
54321
,,,, wwwww ,他们的销售业绩由二维变量 ),(
21
vv 描述,
见表 1。
表 1 销售员业绩表
销售员
1
v (销售量)百件
2
v (回收款项)万元
1
w
1 0
2
w
1 1
3
w
3 2
4
w
4 3
5
w
2 5
记销售员 )5,4,3,2,1( =iw
i
的销售业绩为 ),(
21 ii
vv 。如果使用绝对值距离来测量点
与点之间的距离,使用最短距离法来测量类与类之间的距离,即
∑
=
−=
2
1
),(
k
jkikji
vvwwd , )},({min),(
ji
Gw
Gw
qp
wwdGGD
qj
pi
∈
∈
=
剩余87页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/6ba19994c6c3461f8cf75ff80f635020_qq_34910341.jpg!1)
CyMylive.
- 粉丝: 7536
- 资源: 4万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 1652189183080063_42AD52629C553C7BC65694A425954A3F_1.apk
- 王都创世物语魔改版.apk
- Linear_regrassion_with_gradien_decent_example.ipynb
- 1719163625521533_1e90151d86c4cc2fadb97a0a82d0fc0e
- 虚拟现实课件-第五章 3物理建模
- 虚拟现实课件-第五章 2运动建模
- A1-ERP(资源协同)管理平台需求说明书.pdf
- 基于springboot+sureness的面向REST API资源无状态认证权限管理系统(源码+数据库+说明文档)
- programming LSQUIC
- 基于Python的天气预测和天气可视化项目(源码+数据+视频演示+文档说明).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)