没有合适的资源?快使用搜索试试~ 我知道了~
第四章一元线性回归10.pdf第四章一元线性回归101
需积分: 0 0 下载量 62 浏览量
2022-08-04
14:36:12
上传
评论
收藏 930KB PDF 举报
温馨提示
试读
26页
第四章 一元线性回归§4.1 一元线性回归模型两变量之间有一定依存关系,但没有严格的对应关系。如人的年龄和血压,身高和体重,储蓄额与居民收入等都是统计关系或相关
资源详情
资源评论
资源推荐
1
杜志渊
第四章一元线性回归
§4.1 一元线性回归模型
两变量之间有一定
依存关系,但没有严格的对应关
系。如人的年龄和血压,身高和
体重,储蓄额与居民收入等都是
统计关系或相关关系。相关关系
可以通过相关图表示出来。相关
关系有线性相关和非线性相关
(曲线相关)。
一、变量之间的关系
变量之间可以用数学公式表示。如圆的半径R与面积S等。
函数关系
统计关系
·
Y ·· ·
·
··
· ·
·
·
··
··
0 X
·
Y ···
·
··
··
·
·
··
0 X
正相关r>0
Y
· ·
· ·
· · ·
· ·
·
0 X
不相关 r=0
·
Y ··
·
··
···
·
···
·
0 X
负相关 r<0
·
Y ··
·
·
··
·
·
···
·
0 X
曲线相关
二、两变量之间的线性相关系数
1、定义:变量X与y之间的线性相关程度可以用简单相关系数来度
量。计算公式为:
yyxx
xy
LL
L
yyxx
yyxx
r =
−−
−−
=
∑∑
∑
22
)()(
))((
其中-1≤r≤ 1, 且r>0 时称为正相关,r<0时为负相关,r=0时,
两变量间不存在线性相关关系。
∑ ∑
∑
= =
=
−−
−
=
n
i
n
i
ii
n
i
ii
ynyxnx
yxnyx
r
1 1
2222
1
))((
由样本数据得:
33717.7841864.7737184.1434866.9144020.9246598.04
粮食产量
y(
万吨
)
1034.092797.241864.231017.123269.033710.56
化肥施用
量
x(
万吨
)
39515.0737127.8947336.7843061.5347244.3441673.2142947.44
粮食产量
y(
万吨
)
1998.561598.283804.763212.133953.973021.92989.06
化肥施用
量
x(
万吨
)
46577.9146370.8850890.1143824.5840753.7945110.8748526.69
粮食产量
y(
万吨
)
4021.093779.34883.73056.892287.493637.874541.05
化肥施用
量
x(
万吨
)
例4.1 讨论化肥施用量与粮食产量之间的关系.数据如下表:
化肥施用量与粮食产量的关系图
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
2
相关系数的检验过程:
1、假设 H
0
: ρ=0 ;H
1
: ρ≠0
2、根据给出的样本数据,计算样本相关系数 r 和统计量 t ;在原
假设成立的条件下,检验统计量t服从t分布。
3、根据给定的显著性水平α,查临界值 t
α/2
(n-2);
4、若 t ≥ t
α /2
(n-2), 说明r在统计上是显著的,即两个变量之间
存在线性关系,若 t <t
α/2
(n-2), 则两个变量之间不存在线性相关。
2、相关系数的显著性检验
对样本相关系数r的相关性检验是确定两变量间的线性关系是否显著.
)2(~
1
2
2
−
−
−
= ntt
r
nr
t
ρ为两变量的相
关系数的真值
Correlations
1 .989
**
. .000
20 20
.989
**
1
.000 .
20 20
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
化肥施量(万吨)
粮食产量(万吨)
化肥施
量(万吨)
粮食产
量(万吨)
Correlation is significant at the 0.01 level (2-tailed).
**.
SPSS统计软件得到的化肥施用量与粮食产量的相关性输出表:
注意: 在相关分析中两个变量的地位是平等的.
三、一元线性回归的数学模型
如果两个变量之间存在线性关系,设一个变量为自变量,另一个是
因变量,则两个变量之间的关系可以用一元线性回归模型表达。
设自变量X为确定性变量(解释变量),因变量Y(被解释变量)为随
机变量,两者之间的数学结构式为
y = β
0
+ β
1
X + ε
式中:β
0、
β
1
是回归系数;ε是随机项,表示除了变量X之外其他因素对变
量Y的影响。
线性方程由两部分组成,一部分由X的变化引起,另一部分是由随机
因素引起。
2
0 σεε == )(,)( VarE
假设1 :随机项 ε 服从正态分布, N(0,σ
2
),即:
基本假设
njni
ji
ji
Cov
ji
,,2,1;,,2,1
0
),(
2
LL ==
≠
=
=
σ
εε
假设2:随机项 ε
i
之间是相互独立的,并具有相同的方差。即:
假设3:样本数据是相互独立的。
在一般情况下,从研究的总体中抽取一个样本观察值(x
i
,y
i
),
i=1,2,…,n,对于样本X、y的每一组数, 有
nixy
iii
,,, L21
10
=++= εββ
由假设条件知,
niVarEN
iii
,,2,1,)(,0)(),,0(~
22
L=== σεεσε 且
推导出观察值y
i
(i=1,2,… n)也是相互独立的正态随机变量, 且
2
10
σββ =+= )(,)(
iii
yVarxyE
线性模型在平均意义上表达了变量Y与X的统计规律性.
2
10
)(,)( σββ =+= yVarxyE
由假设知,随机变量y也服从正态分布, 由公式 y = β
0
+ β
1
x+ ε得出:
线性回归的任务是: 通过样本观察值对回归系数进行估计,求出 的
估计值 ,得出一元线性回归方程:
10
,ββ
10
ˆ
,
ˆ
ββ
XY
10
ββ
ˆ
ˆ
ˆ
+=
回归模型的矩阵表达式:
=
=
+=
n
IVar
E
XY
2
0
σε
ε
εβ
)(
)(
=
=
=
=
nnn
x
x
x
X
y
y
y
其中:
Y
MMMM
2
1
2
1
1
02
1
1
1
1
ε
ε
ε
ε
β
β
β
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
3
0
50
100
150
200
250
300
350
400
450
0 500 1000 1500 2000 2500 3000
高速公路里程(公里)
客
运
周
转
量
(
亿
人
公
里
)
公路客运周转量
回归直线
?
一、普通最小二乘估计(OLSE)
回归系数的估计是依赖于最小二乘法的基本思想,考虑观察值y
i
与回
归值 的差(称为残差,记为e
i
). 通过使残差平方和为最小来估计回归系
数。通过样本得到残差平方和为:
∑
∑
∑
=−−=−=
22
10
2
10 iiiii
exyyyQ )
ˆ
ˆ
()
ˆ
(),( ββββ
求极值得:
§4.2 回归系数的最小二乘估计
02
10
0
=−−−=
∂
∂
∑
)
ˆˆ
(
ii
xy
Q
ββ
β
02
10
1
=−−−=
∂
∂
∑
)
ˆˆ
(
iii
xyx
Q
ββ
β
0=
∑
i
e
0=
∑
ii
xe
ii
XY
10
ˆ
ˆ
ˆ
ββ +=
i
y
ˆ
0
50
100
150
200
250
300
350
400
450
0 500 1000 1500 2000 2500 3000
高速公路里程(公里)
客
运
周
转
量
(
亿
人
公
里
)
公路客运周转量
山东省高速公路与公路客运周转量相关图
ii
xY
10
ˆ
ˆ
ˆ
ββ +=
i
Y
iii
YYe
ˆ
−=
x
i
y
i
XY
10
ˆˆˆ
ββ +=
这种方法称普通最小二乘估计(OLSE),是线性回归方程中回归系
数求解的基本方法。这样由样本估计得到的回归方程称为一元线性经
验回归方程.记为:
−=−=
−
−
=
−
−−
==
∑∑
∑∑
∑ ∑∑
∑
∑
==
==
= ===
n
i
i
n
i
i
n
i
i
n
i
i
n
i
n
i
ii
n
i
ii
i
n
i
ii
xx
xy
x
n
y
n
xy
xxn
yxyxn
xx
yyxx
L
L
1
1
1
10
1
2
1
2
1 11
2
1
1
11
βββ
β
ˆˆˆ
)(
)(
))((
ˆ
由上面方程组可得:
0
10
=−−
∑
∑
ii
xny ββ
ˆ
ˆ
0
2
10
=−−
∑
∑
∑
iiii
xxyx ββ
ˆ
ˆ
例: 根据恩格尔定律得出食品支出Y与实际收入X的关系的一元线性回归
模型来反映.用表的形式列出原始数据X,Y的值及相应的计算数据。见表
解:根据计算表中的数据得出回归系数为:
9872.9
15
1516
1802.0
15
423
ˆ
1802.0
151616363415
42315164463215
ˆ
0
2
1
=×−=
=
−×
×
−
×
=
β
β
所求的经验回归方程为:
ii
xy 1802.099.9
ˆ
+
=
回归方程的实际意义是:当收入每增加一个单位时,食品支出会增加
0.18单位,即使在收入为0的情况下,食品支出依然需要9.99单位。
续
12311163654446324231516合计
40040961280206415
78484642576289214
72965612187278113
14441904452443813812
11561664143863412911
9611123632863110610
961151293813311239
6766889215826838
3612916102619547
1296249645688361586
7298281245727915
784104042856281024
6259409242525973
6769216249626962
729104042754271021
Y
2
X
2
XYYX编号
返回
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
4
§4.3 回归系数的性质及统计意义
一、 是y
i
的线性组合。
10
ˆ
,
ˆ
ββ
∑
∑
∑
−
=
−
=
−−
=
i
xx
i
xx
ii
xx
ii
y
L
xx
L
yxx
L
yyxx
)(
)())((
ˆ
1
β
ni
L
xx
CyC
xx
i
iii
,,2,1
ˆ
1
L=
−
==
∑
β
例如:
同理得:
ii
yxC
n
xy
∑
−=−= )(
ˆˆ
1
10
ββ
二、 服从正态分布,且最小二乘估计的回归系数具有无偏性。
10
ˆ
,
ˆ
ββ
−
=
==
−
+=
+==
∑
∑
2
22
2
ˆ
11
2
2
2
2
22
ˆ
00
)(
)
ˆ
(
)(
11
)
ˆ
(
1
0
xxL
E
xx
x
nL
x
n
E
ixx
ixx
σσ
σββ
σσσββ
β
β
即有:
),(~
ˆ
))
1
(,(~
ˆ
2
11
2
2
00
;
xxxx
L
N
L
x
n
N
σ
ββσββ +
由于因变量y
i
服从正态分布, 和是y
i
的线性组合,故也服从正态
分布。
1
β
ˆ
0
ˆ
β
证明:
因为有
由于
1)(
0
)(
2
=−=
=
−
−
=
∑∑
∑
∑
∑
xxCxC
xx
xx
C
ii
i
i
j
i
i
1
10
10
1
)(
)()
ˆ
(
β
ββ
ββ
β
=
+=
+=
=
∑∑
∑
∑
iii
ii
ii
xCC
xC
yECE
11
)
ˆ
( ββ =E
nn
yCyCyC +++= L
22111
ˆ
β
同理得:
222
1
)()()
ˆ
( σβ
∑
∑
∑
===
iiiii
CyVarCyCVarVar
由于
于是有
xxjj
i
i
Lxxxx
xx
C
1
)(
1
))((
)(
222
2
2
=
−
=
−
−
=
∑∑
∑
∑
xxj
i
Lxx
CVar
2
2
2
222
1
)(
)
ˆ
(
1
σσ
σσβ
β
=
−
===
∑
∑
同理:可以证明关于 的相应的数字特征的结论。
0
ˆ
β
yy
xx
yy
xx
xx
xy
yyxx
xy
L
L
L
L
L
L
LL
L
r
1
ˆ
β===
注意:线性相关系数r与一元线性回归系数β
1
符号相同。因为
在实际计算时,由于总体的方差σ
2
常常是未知的,则用S
2
近似
地估计总体方差。故可得:
==
+==
xxxx
L
S
S
L
x
n
SS
2
2
ˆ
2
ˆ
2
22
ˆ
2
ˆ
1100
ˆ
1
ˆ
ββββ
σσ
同理,还可以得到回归系数 的协方差为:
10
ˆ
,
ˆ
ββ
2
10
)
ˆ
,
ˆ
( σββ
xx
L
x
Cov −=
上式表明只有在 时,两回归系数才是相互独立的。
0
=
x
Ø 在基本假设条件下,在各种线性无偏估计量中,由最小二乘估计得
到的回归系数具有最小的方差界。
三、方差σ
2
的估计S
2
在一元回归方程中,可以证明,未知参数σ
2
的无偏估计 S
2
可以表
示为:
上式中,分子是残差平方和,
分母是自由度,
n是样本容量。
由于在估计回归系数时用到 ,故可以得知自
由度为n-2。
2
2
22
−
==
∑
n
e
S
i
σ
ˆ
0,0 ==
∑
∑
iii
Xee
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
剩余25页未读,继续阅读
英次
- 粉丝: 19
- 资源: 306
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0