没有合适的资源?快使用搜索试试~ 我知道了~
应用多元统计分析讲稿朱建平.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 148 浏览量
2022-06-20
21:37:07
上传
评论 2
收藏 3.16MB PDF 举报
温馨提示
试读
44页
应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf应用多元统计分析讲稿朱建平.pdf
资源推荐
资源详情
资源评论
应用多元统计分析讲稿(朱建平)
第一章 多元分析概述
第一节 引言
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30 年来,随着计算机应用技术
的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济
等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet 的日益普及,各行各业都开始采用计算
机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据
量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。
显然,大量信息在给人们带来方便的同时也带来一系列问题。比如:信息量过大,超过了人们掌握、消化的
能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效
统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.Internet 的迅猛发展也使得网
络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。这样又给多元统计分析理论的发展和方法
的应用提出了新的挑战。
多元统计分析起源于上世纪初,1928 年 Wishart 发表论文《多元正态总体样本协差阵的精确分布》,可以说
是多元分析的开端。20 世纪 30 年代 R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工
作,使多元分析在理论上得到了迅速得发展。20 世纪 40 年代在心理、教育、生物等方面有不少得应用,但由于
计算量大,使其发展受到影响,甚至停滞了相当长得时间。20 世纪 50 年代中期,随着电子计算机得出现和发展,
使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20 世纪 60 年代通过应用和实践又完善和
发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20 世纪 70 年代初期在我国才受
到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国
际水平,并已形成一支科技队伍,活跃在各条战线上。
在 20 世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,遍及
超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能和数据库
技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。
为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估计和假
设检验以及常用的统计方法。这些方法包括判别分析、聚类分析、主成分分析、因子分析、对应分析、典型相关
分析、多维标度法以及多变量的可视化分析等。与此同时,我们将利用在我国广泛流行的SPSS 统计软件来实现
实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。
第二节 应用背景
二、多元统计分析方法的应用
这里我们要通过一些实际的问题,解释选择统计方法和研究目的之间的关系,这些问题以及本书中的大量案
例能够使得读者对多元统计分析方法在各个领域中的广泛应用有一定的了解。多元分析方法从研究问题的角度可
以分为不同的类,相应有具体解决问题的方法,参看表 1.1。
多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境
保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步了解多元统计分析的应用领
域,让读者从感性上加深对多元统计分析的认识。
问题 内容 方法
尽可能简单地表示所研究的现 多元回归分析、聚类分析、
象,但不损失很多有用的信息,主成分分析、因子分析、相
数据或结构性化简
并希望这种表示能够很容易的 应分析、多维标度法、可视
解释。 化分析
分类和组合
基于所测量到的一些特征,给出判别分析、聚类分析、主成
好的分组方法,对相似的对象或分分析、可视化分析
变量分组。
1 / 44
应用多元统计分析讲稿(朱建平)
变量之间是否存在相关关系,相多元回归、典型相关、主成
关关系又是怎样体现。 分分析、因子分析、相应分
变量之间的相关关系
析、多维标度法、可视化分
析
预测与决策
通过统计模型或最优准则,对未多元回归、判别分析、聚类
来进行预见或判断。 分析、可视化分析
检验由多元总体参数表示的某 多元总体参数估计、假设检
假设的提出及检验 种统计假设,能够证实某种假设验
条件的合理性。
1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商
品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居
民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。
2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现
利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千
瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成
几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和
因子分析法。
3、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业
行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是
否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。
4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、
税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分
收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民
人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。
5、某医院已有 100 个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标
数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。
6、有 100 种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远
得分越低),希望用这些得分数据来了解这 100 种酒之间的结构关系。这样的问题就可以用多维标度法来解决。
7、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60 个标本,对每个标本测得
20 个化学成分的含量。我们希望通过对这 20 个化学成分的分析,了解矿体的性质和矿体形成的主要原因。
8、对 1000 个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分
析方法将这类鱼分成几个不同品种。
9、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,
判别它是属于哪一类动物牙齿、是哪一个时代的。
10、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还
可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。
第二章 多元正态分布的参数估计
第一节 引言
2 / 44
应用多元统计分析讲稿(朱建平)
多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵。例如在研究公司的运营情况
时,要考虑公司的获利能力、资金周转能力、竞争能力以及偿债能力等财务指标;又如在研究国家财政收入时,
税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金
收入、其他收入等都是需要同时考察的指标。显然,如果我们只研究一个指标或是将这些指标割裂开分别研究,
是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。为了更好的探讨这些问题,本
章我们首先论述有关随机向量的基本概念和性质。
在实用中遇到的随机向量常常是服从正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近
似于正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。在
多元统计分析中, 多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。为此,
本章将要介绍多元正态分布的定义和有关性质。
然而在实际问题中,多元正态分布中均值向量和协差阵通常是未知的,一般的做法是由样本来估计。这是本
章讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的性质。
第二节 基本概念
一、随机向量
我们所讨论的是多个变量的总体,所研究的数据是同时 p 个指标(变量),又进行了 n 次观测得到的,我们
把这个 p 指标表示为 X
1
,
X
2
,
L
,
X
p
,常用向量 X = (X
1
,
X
2
,
L
,
X
P
)' 表示对同一个体观测的 p 个变
量。这里我们应该强调,在多元统计分析中,仍然将所研究对象的全体称为总体,它是由许多(有限和无限)的
个体构成的集合,如果构成总体的个体是具有 p 个需要观测指标的个体,我们称这样的总体为 p 维总体(或 p
元总体)。上面的表示便于人们用数学方法去研究 p 维总体的特性。这里“维”(或“元”)的概念,表示共有几个
分量。若观测了 n 个个体,则可得到如表 2.1 的数据,称每一个个体的 p 个变量为一个样品,而全体 n 个样品组
成一个样本。
表 2.1 数据
变量
序号
1
2
X
1
X
2
X
p
X
11
X
21
X
12
X
22
X
1 p
X
2 p
n
X
n1
X
n2
X
np
在这里横看表 2.1,记为
X
(
)
( X
1
, X
2
, , X
p
)
,
1,2,
X
j
( X
1 j
, X
2 j
,
, n
表示第
个样品的观测值。竖看表 2.1,第
j
列的元素
, X
nj
)
,
j 1,2, , p
表示对第
j
个变量
X
j
的
n
次观测数值。
因此,表 2.1 所反映出的样本资料可用矩阵表示为
X
11
X
21
X
X
n1
简记为 X。
X
12
X
22
X
n2
X
1 p
X
(1)
X
X
2 p
(X , X , ,X )
(2)
(2.1)
1 2 p
X
np
X
(n)
3 / 44
应用多元统计分析讲稿(朱建平)
定义 2.1 将
p
个随机变量
X
1
, X
2
, , X
p
的整体称为
p
维随机向量,记为
X ( X
1
, X
2
, , X
p
)
。
在对随机向量的研究仍然限于讨论离散型和连续型两类随机向量。
二、多元分布
先回顾一下一元统计中分布函数和密度函数的定义。
设
X
是一个随机变量,称
F (x) p( X x)
为
X
的概率分布函数或简称为分布函数,记为
X ~ F(x)
。
若随机变量在有限或可列个值
x
k
上取值,记
P(X x
k
) p
k
,
(k 1,2,
机变量,称
P(X x
k
) p
k
,
(k 1,2,
)
且
p
k
1
,则称
X
为离散型随
k
)
为
X
的概率分布。
x
设
X ~ F(x)
,若存在一个非负函数
f (x)
,使得一切实数
x
有:
F(x)
f (t)dt
,则称
f (x)
为
X
的分布密
度函数,简称为密度函数。一个函数
f (x)
能作为某个随机变量
X
的分布密度函数的重要条件是:
(1)
f (x) 0
,对一切实数
x
;
(2)
f (x)dx 1
。
, X
p
)
是
p
维随机向量,它的多元分布函数定义为
F (x)F ( X
1
, X
2
, , X
p
) P( X
1
x
1
, X
2
x
2
, , X
p
x
p
)
(2.2)
定义 2.2 设
X ( X
1
, X
2
,
记为
X ~ F(x)
,其中
x (x
1
, x
2
, , x
p
)
R
p
,
R
p
表示
p
维欧氏空间。
多维随机向量的统计特性可用它的分布函数来完整地描述。
定义 2.3 设
X ( X
1
, X
2
, , X
p
)
是
p
维随机向量,若存在有限个或可列个
p
维数向量
x
1
,
x
2
,
,
,记
P(X x
k
) p
k
,
(k 1,2, )
且满足
p
1
p
2
1
,则称
X
为离散型随机向量,称
P(X x
k
) p
k
,
(k 1,2, )
为
X
的概率分布。
设
X ~ F (x)F (x
1
, x
2
, , x
p
)
,若存在一个非负函数
f (x
1
, x
2
,, x
p
)
,使得对一切
x (x
1
, x
2
,
x
1
x
p
, x
p
)
R
p
有
F(x)F (x
1
, x
2
, , x
p
)
f (t
1
,t
2
, ,t
p
)dt
1
dt
p
(2.3)
则称
X
为连续型随机变量,称
f (x
1
, x
2
,, x
p
)
为分布密度函数,简称为密度函数或分布密度。
p
一个
p
元函数
f (x
1
, x
2
,, x
p
)
能作为
R
中某个随机向量的密度函数的主要条件是:
p
(1)
f (x
1
, x
2
,, x
p
) 0
,
(x
1
, x
2
,
, x
p
)
R
;
1 2 p
(2)
f (x , x ,, x
)dx
1
dx
p
1
离散型随机向量的统计性质可由它的概率分布完全确定,连续型随机向量的统计性质可由它的分布密度完全确
定。
【例 2.1】 试证函数
e
( x
1
x
2
)
, x
1
0, x
2
0
f (x
1
, x
2
)
其它
0,
为随机向量
X ( X
1
, X
2
)
密度函数。
证:只要验证满足密度函数两个条件即可
(1)显然,当
x
1
0, x
2
0
时有
f (x
1
, x
2
) 0
4 / 44
应用多元统计分析讲稿(朱建平)
(x
1
x
2
)
(2)
e dx
1
dx
2
0
定 义 2.4 设
X ( X
1
, X
2
,
( x
1
x
2
)
x
2
x
2
e 1
dx
1
dx
2
e dx
2
e dx
1
dx
2
e
0
0
0
0 0
, X
p
)
是
p
维 随 机 向 量 , 称 由 它 的
q( p)
个 分 量 组 成 的 子 向 量
(x
1
x
2
)
X
(i)
(X
i
1
, X
i
2
, , X
i
q
)
的分布为
X
的边缘(或边际)分布,相对地把
X
的分布称为联合分布。通过变换
X
中
q
X
(1)
(1)
(2)
各分量的次序,总可假定
X
正好是
X
的前
q
个分量,其余
p q
个分量为
X
,则
X
(2)
,相应的
X
pq
x
(1)
取值也可分为两部分
x
(2)
。
x
当
X
的分布函数是
F (x
1
, x
2
, , x
q
)
时,
X
(1)
的分布函数即边缘分布函数为:
F (x
1
, x
2
, , x
q
) P( X
1
x
1
, , X
q
x
q
)
, X
q
x
q
, X
q1
,
, )
, X
p
)
, x
q
, ,
P(X
1
x
1
,
F (x
1
, x
2
,
当
X
有分布密度
f (x
1
, x
2
,, x
p
)
时(亦称联合分布密度函数),则
X
(1)
也有分布密度,即边缘密度函数为:
f
1
(x
1
, x
2
,
, x
q
)
f (x
1
,
, x
p
)dx
q1
,
, dx
p
【例 2.2】对例 2.1 中的
X ( X
1
, X
2
)
求边缘密度函数。
( x x ) x
e
1 2
dx
2
e
1
, x
1
0
解:
f (x
1
)
f (x
1
, x
2
)dx
2
=
0
0, 其它
e
x
2
, x
2
0
同理
f (x
2
)=
其它
0,
定义 2.5 若
p
个随机变量
X
1
, X
2
, , X
p
的联合分布等于各自的边缘分布的乘积,则称
X
1
, X
2
, , X
p
是相互独
立的。
【例 2.3】 问例 2.2 中的
X
1
与
X
2
是否相互独立?
e
( x
1
,x
2
)
, x
1
0, x
2
0
解:
f (x
1
, x
2
)=
其它
0,
e
x
1
, x
1
0
e
x
2
, x
2
0
f
x
1
(x
1
)=
f
x
2
(x
2
)=
其它 其它
0,
0,
由于
f (x
1
, x
2
)=f
x
1
(x
1
) f
x
2
(x
2
)
,故
X
1
与
X
2
相互独立。
这里我们应该注意,由
X
1
, X
2
,
定 义 2.6 设
, X
p
相互独立,可推知任何
X
i
与
X
j
(i j)
独立,但反之不真。
, X
p
)
, 若
X ( X
1
, X
2
,
E(X
i
) (i 1, , p)
存 在 且 有 限 , 则 称
E( X ) (E( X
1
), E(X
2
), , E(X
p
))
为
X
的均值(向量)或数学期望,有时也把
E(X )
和
E( X
i
)
分别记为
μ
和
i
,即
μ (
1
,
2
, ,
p
)
,容易推得均值(向量)具有以下性质:
(1)
E( AX ) AE(X )
(2)
E(AXB) AE( X )B
(3)
E(AX BY ) AE( X ) BE(Y )
其中,
X
、
Y
为随机向量,
A
、
B
为大小适合运算的常数矩阵。
5 / 44
剩余43页未读,继续阅读
资源评论
- 仲洋花朝尤初八2023-11-26非常有用的资源,有一定的参考价值,受益匪浅,值得下载。
hhappy0123456789
- 粉丝: 60
- 资源: 5万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功