没有合适的资源?快使用搜索试试~ 我知道了~
文档整理了概率密度估计的方法以及各种估计方法的一些性质,主要介绍了非参数估计的方法。同时对文中介绍的方法进行了证明。其次,对非参数线性回归方法进行了梳理。
资源推荐
资源详情
资源评论
概率密度估计与非参数回归
曾焰
版本 1.0,最后修订于 2017-11-05
摘要
陈希孺等 [1] 第六章的内容摘要。
1 概率密度估计
1.1 几种重要的密度估计方法
1. 直方图法。这个方法可描述如下:假设随机变量 X 有密度 f ,并有 X 的独立同分布样本 X
1
,
· · · ,X
n
。选择一个适当的正数 h,把全直线分为一些长为 h 的区间。任取这些区间之一,记为 I。对
x ∈ I,我们有
f(x) ≈
P (X ∈ I)
h
≈
n
i=1
1
{X
i
∈I}
n
·
1
h
� (1.1)
这一方法重要的是 h 的选择。h 太大了,平均化的作用突出了,而淹没了密度的细节部分。太小
了,则受随机性影响太大,而产生极不规则的形状。h 的选择无现成规则可循。实际操作中,我们可能
需要取一些不等长的区间,这样的直方图估计称为“Data-based”的直方图估计。
直方图估计的优点是简单易行,缺点是它不是连续函数(这可以通过适当地修匀来解决),且从统
计角度看一般说效率较低。例如,在这一方法下,每一区间中心部分密度估计较准,而边缘部分则较差。
2. Rosenblatt 法。为克服直方图法的一个缺点——对每个区间边缘部分密度值的估计较差,
Rosenblatt 在 1955 年提出了一个简单的改进。指定一个正数 h,对每个 x,定义 I
x
=
x −
h
2
, x +
h
2
,
并对密度函数 f 作如下估计
f
n
(x)
∆
= f
n
(x; X
1
, · · · , X
n
) =
n
i=1
1
{X
i
∈I
x
}
n
·
1
h
(1.2)
Rosenblatt 法与直方图法不同之处仅在于,它事先不把分割区间定下来,而让区间随着要估计之点 x
跑,使 x 始终处在区间之中心位置,而获致较好的效果。理论上可以证明,从估计量与被估计量接近
的数量级上看,Rosenblatt 方法确实优于直方图法。
3. Parzen 的核估计。直观上可以设想:为估计 f (x),与 x 靠近的样本,所起作用似应比远离 x
的样本要大些。这些在 Parzen 于 1962 年提出的核估计方法中都得到了体现。为介绍 Parzen 的思想,
我们先将 (1.2) 式变换一个形式,引进一个函数
W (x) = I
[
−
1
2
,
1
2
]
(x)�
1
1 概率密度估计 2
则 (1.2) 式可改写为
f
n
(x) =
1
nh
n
i=1
W
x − X
i
h
�
W (·) 定义的是 R
1
上的均匀密度函数。Parzen 的推广即在于去掉这一特殊性,而容许 W 为一般的密
度函数。
定义 1.1. 设 K(·) 是 R
1
上的一个给定的概率密度函数,h
n
> 0 是一个同 n 有关的常数,定义
f
n
(x) =
1
nh
n
n
i=1
K
x − X
i
h
n
� (1.3)
称 f
n
为总体未知密度 f 的一个核估计,K 为核函数,h
n
为窗宽。
1
在给定样本之后,一个核估计性能的好坏,取决于核及窗宽的选取是否适当。当 h
n
选得过大,由
于 x 经过压缩变换
x−X
i
h
n
之后使分布的主要部分的某些特征(如多峰性)被掩盖起来了,估计量有较
大偏差。如 h
n
太小,整个估计特别是尾部出现较大的干扰,从而有增大方差的趋势。因而在实际使用
核估计时,如何选取适当的宽度是一项很细致的工作。选择核 K 是否适当,同样要影响估计的精度。
原则上,我们可以对核 K 施加一定的限制,使得估计量与待估函数的偏差在一定意义下尽可能地小。
例如可以要求 K 有对称性,其一阶矩(关于密度 K)为零,具有有界性、连续性等等。在文献中,核
估计已成为密度估计的主要方法。
4. 最近邻估计。这一方法较适合于密度的局部估计。其要旨如下:设 X
1
,· · · ,X
n
是来自未知密
度 f 的样本。先选定一个同 n 有关的整数 k = k
n
,合于 1 ≤ k < n ,对固定的 x ∈ R
1
,记 a
n
(x) 为最
小的正数 a 使得 [x − a, x + a] 中至少包含 X
1
,· · · ,X
n
中的 k 个。定义
ˆ
f
n
(x) =
k
n
2a
n
(x)n
(1.4)
为 f(x) 的估计,称
ˆ
f
n
为 f 的最近邻估计(简记为 N.N. 估计)。下面的引理说明:从整体看,N.N.
估计的性质与核估计有很大的不同。
引理 1.1. (1) 对固定 n 及 X
1
,· · · ,X
n
,
ˆ
f
n
(x) 作为变元 x 的函数是处处连续的。
(2)
ˆ
f
n
(x) 作为变元 x 的函数非概率密度,并且
ˆ
f
n
(x) = O
1
n
,当 |x| → ∞。
特别地,我们有
ˆ
f
n
(x)dx = ∞
引理1.1的性质(2)与待估 f 的尾部特征无关,因而对相当一类待估密度,估计
ˆ
f
n
(x) 的尾部衰
减得太慢,从而
ˆ
f
n
不适宜用作 f 的整体估计。下面的引理给出了
ˆ
f
n
(x) 的分布。
引理 1.2. 对固定 x ∈ R
1
,n ≥ 1,有
P (a
n
(x) ≤ y) =
n
i=k
C
i
n
p
i
(y)(1 − p(y))
n−i
= nC
k−1
n−1
p(y)
0
t
k−1
(1 − t)
n−k
dt, y > 0,
1
这一定义考虑的是 X 为一维的情况。若 X 为 d 维,只须将 (1.3) 式中分母 nh
n
改为 nh
d
n
。
1 概率密度估计 3
其中
p(y) =
x+y
x−y
f(t)dt = P (x − y ≤ X ≤ x + y)�
如果令 K(x) =
1
2
, |x| < 1
0, |x| ≥ 1
,则可将 N.N. 估计改写为
ˆ
f
n
(x) =
1
na
n
(x)
n
i=1
K
x − X
i
a
n
(x)
�
于是在单个点 x 上的 N.N. 估计与核估计差别不大,只有当同时考虑在几个点或者估计整个 f 时,这
两种方法才显示出差别。N.N. 估计由于计算上有某种方便之处,这种方法被广泛地用于模式识别及非
参数判别分析。
1.2 估计精度的度量
我们用 T
n
(x)
∆
= T
n
(x; X
1
, · · · , X
n
) 表示基于样本 X
1
,· · · ,X
n
的、对未知密度 f (x) 的任一估计。
由于 T
n
(x) 既同样本有关,又是考察点的函数,因而对固定的考察点 x,估计精度的一种自然测度为
MSE(T
n
(x)) = E
f
[(T
n
(x) − f(x))
2
] = (E
f
[T
n
(x)] − f(x))
2
+ Var
f
(T
n
(x)), (1.5)
称 (1.5) 为估计 T
n
的均方误差,其中 E
f
表示期望是在真分布为 f 时的计算。(1.5)右端是由两个部
分组成:第一项是偏差项,而第二项是估计的方差。要同时减少这两部分是困难的:通常,如降低偏
差,则方差有增大的趋向,反之亦然。例如当 T
n
(x) 为核估计时,有
E
f
[T
n
(x)] =
K(y)f(x − h
n
y)dy,
Var
f
[T
n
(x)] =
1
nh
n
K
2
(y)f(x − h
n
y)dy −
1
n
K(y)f(x − h
n
y)dy
2
�
因而一个核估计的光滑程度只与光滑参数 h
n
有关(当核 K 已确定时),而与 n 无直接关系。
对于密度估计来说,更有实际意义的精度的度量应是整体性的测度。一个被广泛使用的整体测度
是积分均方误差(MISE):
MISE(T
n
) = E
(T
n
(x) − f(x))
2
dx
=
MSE(T
n
(x))dx
=
(E
f
[T
n
(x)] − f(x))
2
dx +
Var
f
(T
n
(x))dx
= 积分偏差平方和 + 积分方差
我们在前段对均方误差的分析,同样可施用于积分均方误差。对核估计来说,应该选择 h
n
使得相应的
核估计其 MISE 达到最小。
为便于计算及理论分析,我们可以通过泰勒展开,得到估计偏差及方差的渐进表达式。为简单计,
设 K 是对称密度函数,满足:
tK(t)dt = 0,k
2
∆
=
t
2
K(t)dt = 0,而 f 具有二阶有界连续导数且
f
′′
∈ L
2
(R
1
),h
∆
= h
n
→ 0,当 n → ∞。则有如下渐近公式:
(E
f
[T
n
(x)] − f(x))
2
dx ≈
1
4
h
4
k
2
2
[f
′′
(x)]
2
dx,
Var
f
(T
n
(x))dx ≈ (nh)
−1
K
2
(u)du�
剩余10页未读,继续阅读
资源评论
jiaoruiqiang
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功