没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![thumb](https://img-home.csdnimg.cn/images/20210720083646.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![thumb](https://img-home.csdnimg.cn/images/20210720083646.png)
![ppt](https://img-home.csdnimg.cn/images/20210720083527.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![application/msword](https://img-home.csdnimg.cn/images/20210720083327.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![ppt](https://img-home.csdnimg.cn/images/20210720083527.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/89335384/bg1.jpg)
Logistic 回归模型
1 Logistic 回归模型的基本知识
1.1 Logistic 模型简介
主要应用在研究某些现象发生的概率
p
,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率
p
与那些因素有关。显然作为概率值,一定有
10 �� p
,因此很难用线性模型描述概率
p
与自变量的关
系,另外如果
p
接近两个极端值,此时一般方法难以较好地反映 p 的微小变化。为此在构建
p
与自变量关
系的模型时,变换一下思路,不直接研究
p
,而是研究
p
的一个严格单调函数
)( pG
,并要求
)( pG
在
p
接近两端值时对其微小变化很敏感。于是 Logit 变换被提出来:
p
p
pLogit
�
�
1
ln)(
(1)
其中当
p
从
10 �
时,
)( pLogit
从
�����
,这个变化范围在模型数据处理上带来很大的方便,
解决了上述面临的难题。另外从函数的变形可得如下等价的公式:
X
T
X
T
T
e
e
pX
p
p
pLogit
�
�
�
�
���
�
�
1
1
ln)(
(2)
模型(2)的基本要求是,因变量(y)是个二元变量,仅取 0 或 1 两个值,而因变量取 1 的概率
)|1( XyP �
就是模型要研究的对象。而
T
k
xxxX ),,,,1(
21
��
,其中
i
x
表示影响
y
的第
i
个因素,它可
以是定性变量也可以是定量变量,
T
k
),,,(
10
����
��
。为此模型(2)可以表述成:
k
x
k
x
k
x
k
x
kk
e
e
pxx
p
p
���
���
���
���
���
�
������
�
�
�
�
110
110
110
1
1
ln
(3)
显然
pyE �)(
,故上述模型表明
)(1
)(
ln
yE
yE
�
是
k
xxx ,,,
21
�
的线性函数。此时我们称满足上面条件
的回归方程为 Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从
伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多
元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻
求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义 1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称 OR),形式上表示为
OR=
k
x
k
x
e
p
p
���
���
�
�
�
110
1
(4)
定义 2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称
-2
ˆ
ln ( )L
b
为估计值
�
ˆ
的拟合似然度,该值越小越好,如果模型完全拟合,则似然值
ˆ
( )L
b
为 1,而拟合似
![](https://csdnimg.cn/release/download_crawler_static/89335384/bg2.jpg)
然度达到最小,值为 0。其中
ˆ
( )lnL
b
表示
�
ˆ
的对数似然函数值。
定义 3 记
)
ˆ
(
�
Var
为估计值
�
ˆ
的方差-协方差矩阵,
2
1
)]
ˆ
([)
ˆ
(
��
VarS �
为
�
ˆ
的标准差矩阵,则称
ki
S
w
ii
i
i
,,2,1,]
ˆ
[
2
���
�
(5)
为
i
�
ˆ
的 Wald 统计量,在大样本时,
i
w
近似服从
)1(
2
�
分布,通过它实现对系数的显著性检验。
定义 4 假定方程中只有常数项
0
�
,即各变量的系数均为 0,此时称
2
0
ˆ ˆ
2[ln ( ) ln ( )]L L
c b b
= - -
(6)
为方程的显著性似然统计量,在大样本时,
2
�
近似服从
)(
2
k
�
分布。
1.2 Logistic 模型的分类及主要问题
根据研究设计的不同,Logistic 回归通常分为成组资料的非条件 Logistic 回归和配对资料的条件
Logistic 回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如
下:
两分类非条件 Logistic 回归:分组数据的 Logistic 回归,未分组数据的 Logistic 回归;
多分类非条件 Logistic 回归:无序变量 Logistic 回归,无序变量 Logistic 回归;
条件 Logistic 回归:1:1 型、1:M 型和 M:N 型 Logistic 回归。
关于 Logistic 回归,主要研究的内容包括:
1. 模型参数的估计及检验
2. 变量模型化及自变量的选择
3. 模型评价和预测问题
4. 模型应用
2 Logistic 模型的参数估计及算法实现
2.1 两分类分组数据非条件 Logistic 回归
因变量(反应变量)分为两类,取值有两种,设事件发生记为 y=1,不发生记为 y=0,设自变量
T
k
xxxX ),,,(
21
��
是分组数据,取有限的几个值;研究事件发生的概率
)|1( XyP �
与自变量
X
的关
系,其 Logistic 回归方程为:
kk
xx
XyP
XyP
���
����
�
�
�
110
)|0(
)|1(
ln
或
k
x
k
x
k
x
k
x
e
e
XyP
���
���
���
���
�
��
�
�
110
110
1
)|1(
例 2.1.1 分组数据
[1]
在一次住房展销会上,与房地产商签订初步购房意向书的有 n=325 人,在随后的 3 个
月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为 1,否则记为 0。以顾客的年家庭收入(万元)
作为自变量
X
,对数据统计后如表 2.1.1 所示,建立 Logistic 回归模型。
![](https://csdnimg.cn/release/download_crawler_static/89335384/bg3.jpg)
表 2.1.1 购房分组数据
序号
年家庭收入
X(万元)
签订意
向人数
实际购
买人数
1
1.5
25
8
2
2.5
32
13
3
3.5
58
26
4
4.5
52
22
5
5.5
43
20
6
6.5
39
22
7
7.5
28
16
8
8.5
21
12
9
9.5
15
10
例 2.1.2 药物疗效数据
[2]
为考察某药物疗效,随机抽取 220 例病人并分配到治疗组和对照组,治疗组采用
治疗药物,对照组采用安慰剂。治疗一段时间后观察病人的疗效,得到表 2.1.2 数据。设 y 为疗效指标(y=1
有效,y=0 无效),
1
x
为治疗组指标(1 为治疗组,0 为对照组),
2
x
为年龄组指标(1 为>45 岁,0 为其他)。
表 2.1.2 药物疗效数据
序号
治疗分组
1
x
年龄分组
2
x
有疗效
无效
合计
1
1
1
32
18
50
2
1
0
40
20
60
3
0
1
21
31
52
4
0
0
18
40
58
上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行 Logistic 回归,首先要明确应变
量对应事件的发生概率如何确定和进行 Logit 变换,其次才能建立 Logistic 回归。为便于数据处理,我们
将此类数据的格式作个约定,排列格式为(组序号,自变量
X
,该组事件发生数,该组总例数)。
表 2.1.3 分组数据的标准格式
表 2.1.1 改造表
序
号
年家庭收入
X(万元)
实际购买
人数
i
m
签订意向
总人数
i
n
1
1.5
8
25
2
2.5
13
32
3
3.5
26
58
4
4.5
22
52
5
5.5
20
43
6
6.5
22
39
7
7.5
16
28
8
8.5
12
21
9
9.5
10
15
表 2.1.2 改造表
序
号
治疗分
组
1
x
年龄分
组
2
x
有效例
数
i
m
观察例
数
i
n
1
1
1
32
50
2
1
0
40
60
3
0
1
21
52
4
0
0
18
58
![](https://csdnimg.cn/release/download_crawler_static/89335384/bg4.jpg)
经过改造后,可得我们关心的事件的发生的频率为
ni
n
m
p
i
,,2,1,
i
i
���
该组总例数
该组发生事件数
。其中
n
为分组数,然后作 Logit 变换,即
i
i
ii
p
p
pLogitp
�
��
1
ln)(
~
。变换后的数据,形式上已经可以采用一般
的线性回归的处理方式来估计回归参数了。此时方程变为:
�
�
���
k
j
ijji
nixp
1
0
,,2,1,
~
�
��
当然这样处理并没有解决异方差性,当
i
n
较大时,
i
p
~
的近似方差为:
)(,
)1(
1
)
~
(
ii
iii
i
yE
n
pD �
�
�
�
��
(7)
所以选择权重
nippn
iiii
,,2,1),1( ����
�
,最后采用加权最小二乘法估计参数。
注意,分组数据的 Logistic 回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组
数
n
为回归拟合的样本量,明显降低了拟合精度,在实际应用中必须谨慎。
求解算法及步骤:
1.依据分组数据的标准格式,计算频率
i
p
、Logit 变换
i
p
~
和权重
i
�
2.构建加权最小二乘估计:
� �� �
� �� �
�����
n
i
k
j
ijjiiii
n
i
k
j
ijjii
xyxy
1 1
2
0
1 1
2
0
)(min)(min
��������
(8)
令
iii
yy
�
�
*
,
T
ikiiiii
xxX ),,,(
1
*
���
��
,
T
k
),,,(
10
����
��
则方程又变成一般的线性回归模型:
�
�
�
n
i
i
T
i
Xy
1
2**
)(min
�
(9)
3.构造增广矩阵
21
****
][
��� kk
TT
YXXX
利用消去法得
]
ˆ
)
ˆ
([
��
VarI �
矩阵,得到估计
�
ˆ
其中
2,1 �� KK
I
为残差平方和
SE
, 回归方差
1
ˆ
2
��
�
kn
SE
�
各系数检验采用
)1(~
ˆ
ˆ
��� knt
I
t
ii
i
i
�
�
剩余18页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/9bd4fe37e7694d94a826a132d0accd96_qq_43402143.jpg!1)
程序设计开发
- 粉丝: 113
- 资源: 2
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)