没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
-226-
第十二章 回归分析
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的
一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数
据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要
作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已
经完全解决了,还有进一步研究的必要吗?
从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些
系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间
太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析
方法对模型的误差进行分析,对拟合的优劣给出评价。简单地说,回归分析就是对拟合
问题作的统计分析。
具体地说,回归分析在一组数据的基础上研究这样几个问题:
(i)建立因变量
y 与自变量
m
xxx ,,,
21
L 之间的回归模型(经验公式);
(ii)对回归模型的可信度进行检验;
(iii)判断每个自变量
),,2,1( mix
i
L= 对
y
的影响是否显著;
(iv)诊断回归模型是否适合这组数据;
(v)利用回归模型对
y 进行预报或控制。
§1 数据表的基础知识
1.1 样本空间
在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有
m 个变量
m
xxx ,,,
21
L ,对它们分别进行了 n 次采样(或观测),得到 n 个样本点
),,,(
21 imii
xxx L ,
ni ,,2,1 L=
则所构成的数据表
X
可以写成一个 mn
×
维的矩阵。
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
==
×
T
n
T
mnij
e
e
xX M
1
)(
式中
mT
imiii
Rxxxe ∈= ),,,(
21
L
, ni ,,2,1 L
=
,
i
e 被称为第
i
个样本点。
样本的均值为
T
m
xxxx ),,,(
21
L= ,
∑
=
=
n
i
ijj
x
n
x
1
1
, mj ,,2,1 L
=
样本协方差矩阵及样本相关系数矩阵分别为
T
k
n
k
kmmij
xexe
n
tC )()(
1
1
)(
1
1
−−
−
==
∑
=
×
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
==
×
jjii
ij
mmij
tt
t
rC )(
2
其中
-227-
∑
=
−−
−
=
n
k
jkjikiij
xxxx
n
t
1
))((
1
1
1.2 数据的标准化处理
(1)数据的中心化处理
数据的中心化处理是指平移变换,即
jijij
xxx −=
*
, ni ,,2,1 L= ; mj ,,2,1 L
=
该变换可以使样本的均值变为 0,而这样的变换既不改变样本点间的相互位置,也
不改变变量间的相关性。但变换后,却常常有许多技术上的便利。
(2)数据的无量纲化处理
在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,
使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进
行所谓的压缩处理,即使每个变量的方差均变成 1,即
jijij
sxx /
*
=
其中
∑
=
−
−
=
n
i
jijj
xx
n
s
1
2
)(
1
1
。
还可以有其它消量纲的方法,如
}{max/
*
ij
i
ijij
xxx =
,
}{min/
*
ij
i
ijij
xxx =
jijij
xxx /
*
= ,
}){min}{max/(
*
ij
i
ij
i
ijij
xxxx −=
(3)标准化处理
所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即
j
jij
ij
s
xx
x
−
=
*
,
ni ,,2,1 L=
,
mj ,,2,1 L
=
。
§2 一元线性回归
2.1 模型
一元线性回归的模型为
ε
β
β
++= xy
10
, (1)
式中,
10
,
β
β
为回归系数,
ε
是随机误差项,总是假设 ),0(~
2
σε
N ,则随机变量
),(~
2
10
σββ
xNy + 。
若对
y 和
x
分别进行了 n 次独立观测,得到以下 n 对观测值
),(
ii
xy , ni ,,2,1 L= (2)
这
n 对观测值之间的关系符合模型
ii
xy
ε
β
β
++=
10
,
ni ,,2,1 L
=
(3)
这里,
i
x 是自变量在第 i 次观测时的取值,它是一个非随机变量,并且没有测量误差。
对应于
i
x ,
i
y 是一个随机变量,它的随机性是由
i
ε
造成的。 ),0(~
2
σε
N
i
,对于不同
的观测,当
j
i ≠ 时,
i
ε
与
j
ε
是相互独立的。
2.2 最小二乘估计方法
-228-
2.2.1 最小二乘法
用最小二乘法估计
10
,
β
β
的值,即取
10
,
β
β
的一组估计值
10
ˆ
,
ˆ
ββ
,使
i
y 与
xy
i 10
ˆˆ
ˆ
ββ
+= 的误差平方和达到最小。若记
∑
=
−−=
n
i
ii
xyQ
1
2
1010
)(),(
ββββ
则
∑
=
−−==
n
i
ii
xyQQ
1
2
1010
,
10
)
ˆˆ
(),(min)
ˆ
,
ˆ
(
10
ββββββ
ββ
显然
0),(
10
≥
β
β
Q ,且关于
10
,
β
β
可微,则由多元函数存在极值的必要条件得
0)(2
1
10
0
=−−−=
∂
∂
∑
=
n
i
ii
xy
Q
ββ
β
0)(2
1
10
1
=−−−=
∂
∂
∑
=
n
i
iii
xyx
Q
ββ
β
整理后,得到下面的方程组
⎪
⎪
⎩
⎪
⎪
⎨
⎧
=+
=+
∑∑∑
∑∑
===
==
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yxxx
yxn
11
2
1
1
0
11
10
ββ
ββ
(4)
此方程组称为正规方程组,求解可以得到
⎪
⎪
⎪
⎩
⎪
⎪
⎪
⎨
⎧
−=
−
−−
=
∑
∑
=
=
xy
xx
yyxx
n
i
i
n
i
ii
10
1
2
1
1
ˆˆ
)(
))((
ˆ
ββ
β
(5)
称
10
ˆ
,
ˆ
ββ
为
10
,
β
β
的最小二乘估计,其中,
y
x
, 分别是
i
x 与
i
y 的样本均值,即
∑
=
=
n
i
i
x
n
x
1
1
,
∑
=
=
n
i
i
y
n
y
1
1
关于
1
β
的计算公式还有一个更直观的表示方法,即
∑
∑
=
=
−
−−
=
n
i
i
n
i
ii
xx
yyxx
1
2
1
1
)(
))((
ˆ
β
-229-
∑∑
∑
∑
∑
==
=
=
=
−−
−−
⋅
−
−
=
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
yyxx
yyxx
xx
yy
1
2
1
2
1
1
2
1
2
)()(
))((
)(
)(
xy
x
y
r
s
s
=
式中
∑
=
−
−
=
n
i
ix
xx
n
s
1
22
)(
1
1
,
∑
=
−
−
=
n
i
iy
yy
n
s
1
22
)(
1
1
,
xy
r 是
x
与
y
的样本相关系数。
显然,当
ii
yx , 都是标准化数据时,则有 0
=
x ,
0
=
y
, 1
=
x
s ,
1=
y
s
。所以,
有
0
ˆ
0
=
β
,
xy
r=
1
ˆ
β
回归方程为
xry
xy
=
ˆ
由上可知,对标准化数据,
1
ˆ
β
可以表示
y
与
x
的相关程度。
2.2.2
10
ˆ
,
ˆ
ββ
的性质
作为一个随机变量,
1
ˆ
β
有以下性质。
1.
1
ˆ
β
是
i
y 的线性组合,它可以写成
∑
=
=
n
i
ii
yk
1
1
ˆ
β
(6)
式中,
i
k 是固定的常量,
∑
=
−
−
=
n
i
i
i
i
xx
xx
k
1
2
)(
。
证明 事实上
∑
∑∑
∑
∑
=
==
=
=
−
−−−
=
−
−−
=
n
i
i
n
i
n
i
iii
n
i
i
n
i
ii
xx
xxyyxx
xx
yyxx
1
2
11
1
2
1
1
)(
)()(
)(
))((
ˆ
β
由于
0)()(
1
=−=−
∑
=
xnxnyxxy
n
i
i
所以
i
n
i
n
i
i
i
y
xx
xx
∑
∑
=
=
−
−
=
1
1
2
1
)(
ˆ
β
2.因为
1
ˆ
β
是随机变量 ),,2,1( niy
i
L
=
的线性组合,而
i
y 是相互独立、且服从正
态分布的,所以,
1
ˆ
β
的抽样分布也服从正态分布。
3.点估计量
1
ˆ
β
是总体参数
1
β
的无偏估计,有
-230-
∑∑
==
=
⎟
⎠
⎞
⎜
⎝
⎛
=
n
i
ii
n
i
ii
yEkykEE
11
1
)()
ˆ
(
β
∑∑∑
===
+=+=
n
i
ii
n
i
ii
n
i
i
xkkxEk
1
1
1
010
1
)(
ββββ
由于
0
)(
1
1
2
1
=
−
−
=
∑
∑
∑
=
=
=
n
i
n
i
i
i
n
i
i
xx
xx
k
1
)(
))((
)(
1
2
1
1
1
2
1
=
−
−−
=
−
−
=
∑
∑
∑
∑
∑
=
=
=
=
=
n
i
i
n
i
ii
i
n
i
n
i
i
i
i
n
i
i
xx
xxxx
x
xx
xx
xk
所以
11
)
ˆ
(
ββ
=E
4.估计量
1
ˆ
β
的方差为
∑
=
−
=
n
i
i
xx
1
2
2
1
)(
)
ˆ
(Var
σ
β
(7)
这是因为
∑∑∑∑
====
===
⎟
⎠
⎞
⎜
⎝
⎛
=
n
i
i
n
i
i
n
i
ii
n
i
ii
kkykyk
1
22
1
22
1
2
1
1
)(VarVar)
ˆ
(Var
σσβ
由于
∑
∑
∑
∑
∑
∑
=
=
=
=
=
=
−
=−
⎥
⎦
⎤
⎢
⎣
⎡
−
=
−
−
=
n
i
i
n
i
i
n
i
i
n
i
n
i
i
i
n
i
i
xx
xx
xx
xx
xx
k
1
2
1
2
2
1
2
1
2
1
2
1
2
)(
1
)(
)(
1
)
)(
(
因此,式(7)得证。
5.对于总体模型中的参数
1
β
,在它的所有线性无偏估计量中,最小二乘估计量
1
ˆ
β
具有最小的方差。
记任意一个线性估计量
∑
=
=
n
i
ii
yc
1
1
~
β
式中
i
c 是任意常数,
i
c 不全为零, ni ,,2,1 L
=
。要求
1
~
β
是
1
β
的无偏估计量,即
1
1
1
)()
~
(
ββ
==
∑
=
n
i
ii
yEcE
另一方面,由于
ii
xyE
10
)(
β
β
+= ,所以又可以写成
剩余38页未读,继续阅读
资源评论
Sherry_shiry
- 粉丝: 2
- 资源: 1097
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功