没有合适的资源?快使用搜索试试~ 我知道了~
第五章虚拟与离散变量回归模型[归纳].pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 121 浏览量
2021-10-12
05:50:23
上传
评论
收藏 656KB PDF 举报
温馨提示
试读
50页
第五章虚拟与离散变量回归模型[归纳].pdf
资源推荐
资源详情
资源评论
1
第五章 虚拟与离散变量回归模型
前面所研究的回归模型, 其变量都是在取一些实际的数值, 一般是连续的。 实际工作中经
常遇到变量取离散数值情形, 它的回归模型需要给予特殊的考虑。 在经济分析中还经常遇到因
变量不是数值, 比如买与不买, 升与降, 有与无等。 这些选择可以给予一个虚拟变量并赋以数
值代表。这样的回归当然就更有特色了。本章就研究这一类回归模型。
第一节 虚拟变量作自变量的模型
在回归模型中, 因变量往往不仅受到那些取实际数值的自变量 (如价格、 工资收入、 产量、
温度、距离、重量等等 )的影响,而且受到一些不取实际数值的自变量 (如性别、国籍、种族、
颜色、学位、地震、罢工、政治动乱、政府更叠等等 )的影响。要在模型中反映这种影响,可
以引进虚拟变量,人为给予这些因素赋以一定数值。如果某因素只有二种选择 (如性别 ),可以
引进虚拟变量
个样本来自女性第
个样本来自男性第
i
i
D
i
0
1
当然也可以给 D
i
赋值 (1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。 如果某因素有
多项选择,如学位,你可以引进虚拟变量
博士
硕士
学士
3
2
1
i
D
等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。
一、虚拟变量作加项,工资性别差异
设对某种职业者的工资采集了 10 个样本,列于下表,工资单位略去,性别栏中 1 表示男
性, 0 表示女性。
表 5.1.1
序号
1 2 3 4 5 6 7 8 9 10
工资 22.0 19.0 18.0 21.7 18.5 21.0 20.5 17.0 17.5 21.2
性别 1 0 0 1 0 1 1 0 0 1
2
我们以性别为自变量建立回归模型
iii
DY
10
(5.1.1)
对于表中资料回归得
ii
DY 28.300.18
它表示, 女性的平均工资为 18,男性的平均工资为 18+3.28=21.28 。由于回归系数 β
1
的 t 统计
量为 7.44,远大于临界值 0.44,非常显著,故认为该项工作男女工资存在差别。
一般地,对模型 (5.1.1)
0
)0|(
ii
DYE (5.1.2)
10
)1|(
ii
DYE (5.1.3)
若β
1
显著性检验通过,应认为 D
i
的属性集合存在显著差别。
上面的模型除了考虑性别外,没有考虑任何其它因素。如果考虑其它因素对工资的影响,
比如工龄,可以取实际数值,以 X 表示,则有模型
iiii
XDY
210
(5.1.4)
此时
iiii
XDXYE
20
)0,|( (5.1.5)
iiii
XDXYE
210
)()1,|( (5.1.6)
如果系数 β
1
是统计显著的,表示工资还是存在性别差异。
如果某个因素有 3 个属性,能不能用这种两项选择的开关变量表示呢 ?可以使用两个开关
变量。比如学位分 3 个等级:学士,硕士,博士,就引进
其他
学士
1
0
1i
D
博士
硕士
1
0
2i
D
建立如下模型
iiii
XDDY
322110
(5.1.7)
则
XDDYE
i 3021
)0,0|( (5.1.8)
3
XDDYE
i 31021
)0,1|( (5.1.9)
3321021
)1,1|( XDDYE
i
(5.1.10)
不过更多的情况是将两个虚拟变量用来区分两个因素, 如用 D
1
区分性别, 用 D
2
区分肤色, 等
等。
可以使用更多的虚拟变量,如有人研究业余兼职者的工资状况,建立过如下的回归方程
654
321
26.264.11333.47
51.7506.90403.007.37
XDD
DDXY
(5.1.11)
式中 X
1
是第一职业工资, D
2
~D
5
都是开关变量, 用来区分肤色 (白人, 非白人 ),居住地 (城区,
非城区 ),地域 (西部,非西部 ),学历 (高等教育,非高等教育 )。X
6
是年龄。
这一段谈到的都是虚拟变量作加项,它影响回归方程的均值。
二、虚拟变量作乘项,储蓄与收入分段拟合比较
这一段考虑虚拟变量作乘项, 它影响回归方程的斜率。 开始我们也看一个具体的数值例子。
表 5.1.2 是英国 1946~1963 年居民储蓄与收入资料,单位是百万英镑。
表 5.1.2
年份 储蓄 收入 年份 储蓄 收入
1946 0.36 8.8 1955 0.59 15.5
1947 0.21 9.4 1956 0.90 16.7
1948 0.08 10.0 1957 0.95 17.7
1949 0.20 10.6 1958 0.82 18.6
1950 0.10 11.0 1959 1.04 19.7
1951 0.12 11.9 1960 1.53 21.1
1952 0.41 12.7 1961 1.94 22.8
1953 0.50 13.5 1962 1.75 23.9
1954 0.43 14.3 1963 1.99 25.2
表上粗略显示,资料可以分为两个时期: 1946~1954 年为战后恢复时期, 1955~1963 年
为振兴时期。我们可以分别建立两个回归方程
1111101
,,1, niXY
ii
(5.1.12)
2221202
,,1, niXY
ii
(5.1.13)
对于本例具体资料,可以回归得
ii
XY
11
0470.02663.0 (5.1.14)
4
ii
XY
22
1504.07501.1 (5.1.15)
两个方程的斜率不一样,反映储蓄增长速度后来加快了。
要检验这组资料是否真的应该划分为两组, 建立两个回归模型, 或说要检验这两个回归方
程是否有显著性差别,可以使用 Chow 检验法 (具体方法在后面介绍 )。但是,一组资料用两个
方程描述会带来诸多不便。使用虚拟变量,可以用一个方程描述回归方程斜率参数 (非常数因
子)的变化。
对于本例资料,可以建立如下方程
iiiiii
XDXDY )(
3210
(5.1.16)
其中 Y 为储蓄, X 为收入, D 为二值虚拟变量
属于第二个时期
属于第一个时期
i
i
X
X
D
0
1
则
iii
XDYE
11
)0|( (5.1.17)
iii
XDYE )()()1|(
2121
(5.1.18)
对于本例资料,可以计算得回归方程
iiiii
XDXDY 1034.01505.04839.17502.1 (5.1.19)
取 D
i=0,则
ii
XY 1505.07502.1
(5.1.20)
取 D
i=1,则
i
ii
X
XY
0471.02663.0
)1034.01505.0()4839.17502.1(
(5.1.21)
与两个方程效果是一致的 (末位数含有舍入误差 )。
效果是一致的,为什么要采用一个方程而不用两个方程 ?除了便于统一处理外,一个方程
很大的优点是增加了自由度, 从而增加了参数估计的精度。 样本数几乎增加一倍, 而因增加变
量数仅减少两个自由度,我们知道自由度 =n-m。
有人使用虚拟变量建立失业率与工作空位率之间的关系,也是有一个参数变化点:
iiiiii
VDVDUN )(
3210
(5.1.22)
这里 UN 是失业率 (unemplogment rate) ,V 是工作空位率 (job-vacancy rate) ,D 是二值开关变量。
有人建立起服装消费与性别、文化教育的关系,使用两个开关变量
XDDY
iii 322110
(5.1.23)
5
这里 Y 是服装的消费量, X 是收入, D
1
用来区分性别, D
2
用来区分受教育程度。由于考虑女
性受过高等教育者的服装消费远大于其它人, 即性别因素与受教育程度有交互作用, 故将回归
方程改进为
iiiiii
DDXDDY )(
214322110
(5.1.24)
即添加一项 (D
1iD2i )以反映交互作用。
下面我们仍以表 5.1.2 资料为例介绍 Chow 检验。
设有 n
1
组资料
iii
XXY
111
),,( 可以是多元,以及 n2
组资料 (Y
2i, X2i), X2i
须与 X
1i
维数相同,
对它们分别建立回归模型:
),0(~,:
2
111111011
NXYn
iiii
(5.1.25)
),0(~,:
2
222222022
NXYn
iiii
(5.1.26)
Chow 检验的目的是鉴别这两个模型究竟有无显著性差别。它的步骤如下:
(1)合并这两组资料,建立一个统一模型:
iii
XYnn
021
: (5.1.27)
算得残差平方和 S,其自由度是 n
1+n2-m。
(2)分别计算两个单独模型的残差平方和 S
1
(自由度 n
1
-m)与 S
2
(自由度 n
2
-m)。
(3)令 S
3
=S
1
+S
2
(自由度是 n
1
+n
2
-2m),S
4
=S-S
3
(自由度是 m),建立统计量
)2/(
/
213
4
mnnS
mS
F (5.1.28)
在两个单独的回归模型一致的假设下
),,(
212010
2
2
2
1 ii
,统计量 F 应服从
自由度为
)2,(
21
mnnm 的 F 分布, 在显著性水平 α下,查得临界值 )2,(
21
mnnmF ,
如果 F 超过了临界值,就在置信水平 1-α下拒绝两个回归模型一致的假定。
Chow 检验简便易于操作,但是结果比较粗糙。如果拒绝了一致性假设,只知道两个模型
存在显著性差异,可是到底是
2
i
不一样,还是 β i
不一样,就不得而知了。
在表 5.1.2 资料中,算得
16,5722.0,1178.00821.1 fSXY
7,1396.0,0470.02622.0
11
fSXY
7,1931.0,1504.07502.1
22
fSXY
剩余49页未读,继续阅读
资源评论
czq131452007
- 粉丝: 2
- 资源: 12万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于多种编程语言的Jugg后台管理系统设计源码
- java进销存管理系统(jsp+mssql).rar
- tensorflow-2.9.3-cp310-cp310-win-amd64.whl
- tensorflow-2.9.2-cp310-cp310-win-amd64.whl
- 2000-2021年各地级市普通高等学校在校学生数数据.xls
- tensorflow-gpu-2.9.2-cp310-cp310-win-amd64.whl
- 2000-2021年各地级市人力资本水平数据(含原始数据+计算过程+计算结果).xlsx
- WX小程序源码无后台weapp-360che-master
- 基于Android的水产养殖管理系统设计源码
- demo_LADRC_simulink.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功