没有合适的资源?快使用搜索试试~ 我知道了~
抽样技术第9章 复杂样本的方差估计.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 113 浏览量
2023-03-30
21:00:41
上传
评论
收藏 269KB DOCX 举报
温馨提示
试读
12页
。
资源推荐
资源详情
资源评论
复杂样本的方差估计
我们使用权重可以很容易得到总体均值和总体总量的估计值。方差估计则更加复杂:
在第七章:我们知道在一个使用分层抽样和整群抽样的复杂调查中均值估计量和总体总量估
计量的方差是通过在每个层次的方差计算,然后正如调查设计所要求的方式加总。事后分层
和无回答的调整也影响方差。
在前面的章节中,我们得到了使用各种抽样法的方差公式。这些公式中的一些相对比
较简单,比如简单随机抽样所得到的方差公式。其他的公式则显得比较复杂,比如无放回整
群抽样所得到的总体总量的方差估计V t 。这一切都是为估计总体总量估计量的方差估计。
但是我们经常需要通过调查数据估计其他我们没有给出方差估计公式的变量。例如,在第三
章我们采用简单随机抽样得到了两个均值的比率的近似方差估计。但是如果这个抽样调查不
是使用简单随机抽样,那你将怎样估计一个比率的方差呢?
本章介绍了几种复杂样本中总体总量和其他统计量的方差估计方法。9.1 介绍了常用
的计算非线性统计量的方差的线性化方法。9.2 和 9.3 描述了计算线性和非线性统计量的方
差的随机组方法和重抽样方法。9.4 描述了广义化方差的计算,9.5 介绍了置信区间的构造。
9.1 线性化方法(泰勒级数法)
在第二章到第六章中,大部分方差公式是均值和总体总量的方差估计公式。这些公式可
以用来推导被估计均值和总体总量的任何线性组合的方差。如果
t
1
,...,t
总体中 k 个子总体
k
总量的无偏估计量,则
k
k
k
k
V
a t
a V t 2
i
a a Cov t ,t
(9.1)
2
i
i
i
j
i1
i
i
1
i
1
1
j i
i
j
这个结果同样的可以用来推导总体中 k 个均值的无偏估计量:
V
k
a y
k
a
2
V y 2
k
k
a a Cov y , y
i
1
i
i
i 1
i
i
i 1
j i 1
i
j
i
j
因此,如果t 表示已报案的抢劫案的受害者损失的金额总量,t 表示由于抢劫案受害者耽误
1
2
工作的天数,t 表示抢劫案所导致的医疗花费,则由于遭受抢劫所损失的总金额(假设每耽
3
150t t
误一天工作损失 500 美元)可表示为t
1
。由(9.1)式可得方差为
2
3
V t 150t t V t 150 V t V t
2
1
2
3
1
2
3
300Cov t ,t 2Cov t ,t 300Cov t ,t
1
2
1
2
2
3
这个表达式要求计算 6 个方差和协方差;通过定义一个在观测单元水平上的新变量可以使得
计算变得很容易,
q y 150y y
i
i1
i2
i3
V
w q 。
i
则可以直接得到V t
q
i
i
尽管如此,设想我们感兴趣的是抢劫案的直接损失额占总损失的比例t t 。由于
1
q
不能以包含常系数 的 a t
形式表示,所以
a
a t
t t 不是一个线性统计量。但是微分学中
i
1 1
2 q
1
q
用线性函数的形式表
,t ,...,t
的泰勒理论使得我们能够将关于总体总量的非线性函数 h t
1
2
k
,a ,..., a
示;泰勒理论给出了常系数a
所以有
0
1
k
h t ,..., t a
a t
i i
k
1
k
0
i1
,...,t
这样V h t
1
就可以用V
k
a t 近似估计,即通过(9.1)式计算得到。
k
i
i
i1
下面列出的就是将总量或者均值的非线性函数的方差予以线性化的一般步骤:
h t ,t ,...,t
1.将目标量表示为样本中测量变量总量或均值的函数,通常的形式为
1
2
k
h y ,..., y
或
。
1U
kU
h c ,..., c
2.计算 h 关于各个自变量的偏导数,得到线性化步骤中的系数a
1
。
k
c
i
j
t ,...,t
1
k
3.应用泰勒定理将估计量线性化:
a t t
h t ,t ,...,t h t ,t ,..., t
k
1
2
k
j
1
2
k
j
j
j1
a y
j
t
q
w q
i i
h t ,..., t
的方差将其作为
4.定义新的变量q
k
,计算
的方差的
1
k
i
i
j
1
ij
近似值。
优点:
如果知道非线性函数关于关于各个自变量的偏导数值,线性化方法总是能够得到统计量的方
差估计,并且能够应用于一般的抽样调查。线性化方法在统计中已经使用了很长一段时间,
理论特性被研究得最为透彻。计算目标量的非线性函数的线性化方差估计相关的软件也存
在。
缺点:
相关计算过程散乱,并且这种方法很难应用于涉及权重的复杂函数,你要么得到出 h 的偏导
数的解析表达式,要么得到其偏导数的数值解。被估计的非线性统计量需要一个单独的方差
公式,而这需要许多特殊的设计;每个统计量需要不同的方法。另外,并不是所有的统计量
都能表示为总体总量的平滑函数——如中位数和其他分位数就不适用。线性化方差估计的精
度取决于样本容量——如果样本量不够大,方差的估计通常片低。
9.2 随机组方法
9.2.1
复制调查设计
假设基本调查设计被独立的复制 R 次。这里独立的意思是每次抽取完的样本都被放回,
即进行 R 次有放回抽样。这样,R 次重复抽样就产生了 R 个目标量的独立估计值。这些估计
1
值之间的差异可以用来估计 的方差。该方法最初是由马哈拉诺比斯提出,他吧这种方法称
为交叉抽样方法。
设
为目标参数
为第 r 次重复抽样所得到的 的估计值
r
R
R
r
r1
如果 是 的无偏估计,那么 也是 的无偏估计,且有
r
2
R
1
r
V
i1
(9.3)
R
R 1
是V 的无偏估计。
9.2.2 随机组的形成
在实践中,子样本通常不是独立的产生的,但是全样本是根据抽样调查设计抽取的,然
后将全样本分成 R 个组,每个组就作为原样本的复制。这样这些组就被认为是独立的复制最
初的抽样调查设计。
如果全样本是一个样本容量为 n 的简单随机抽样,那么随机组就是通过将 n 个观测值随
机的分配成 R 个组形成的,每个组的样本容量为 n/R 。由于每一个观测值只能在一个组出
现,所以这些随机组并不是独立的得到的。然而,如果总体容量相对于样本容量很大时,我
们可以认为这些随机组是独立的得到的。在整群抽样中,初级抽样单元是随机的分成 R 个组。
在多阶段分层抽样中,一个随机组包含来自每层的初级抽样单元的一个样本。注意如果 k
个初级抽样单元都在最小的层中抽取,这样 k 个随机组就能够形成。
如果 是一个非线性量,则一般 将不会等于 ,估计值直接由全样本计算得到。例如,
1 R
y x
r
y x
,而
。通常, 是一个比 更自然的估计量。
在比率估计中,
R
r
r1
有时候(9.3)中的V 用来估计 ,尽管
偏大。另一个稍微偏大的方差估计量
V
1
经常被使用:
2
R
1
r
V
r1
(9.4)
2
R
1
R
优点:
随机组方法所涉及的方差估计计算很简单不需要特别的软件。该方法适合于多参数和非
参数估计问题。它除了可以用于总体总量的平滑函数的方差估计,也可以用于百分位和非平
滑函数的方差估计。随机组方法可以很容易的用于调整权重后的无应答抽样和总量差额抽
样。
缺点:
随机组的数量通常很少,这会降低方差估计的精度。一般,我们会把全样本分成十个以
上的随机组以获得一个更加稳定的方差估计,并且可以避免扩大使用 t 分布而非正态分布的
置信区间。由于每个随机组必须有和全样本一样的结构设计,所以在复杂抽样中建立随机组
2
剩余11页未读,继续阅读
资源评论
若♡
- 粉丝: 6164
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IMG_20240505_104803.jpg
- AUTOSAR(汽车开放系统架构)深度解析.pdf
- 基于微信小程序的答题系统的设计与实现+全部资料+数据库(毕业设计).zip
- 分析 vs2019 cpp20 规范的 STL 库模板 function ,源码注释并探讨几个问题
- 基于微信小程序+mysql的答题系统的设计与实现+全部资料+详细文档(毕业设计).zip
- H5U的PLC固件,用于EthernetIP通讯时升级固件使用
- Jumpserver堡垒机快速入门视频.zip
- 基于springboot+mysql+redis实现个性化书籍推荐和相似帖子推荐的社区图书馆+论坛+失物招领平台
- 软考中级软件设计师 法律法规通关笔记
- 基于java+sqlserver实现的员工培训系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功