没有合适的资源?快使用搜索试试~ 我知道了~
Logistic-statistic-model.doc
0 下载量 172 浏览量
2024-05-15
08:58:26
上传
评论
收藏 889KB DOC 举报
温馨提示
试读
15页
Logistic-statistic-model.doc
资源推荐
资源详情
资源评论
Logistic Statistic Model
一、基本概念
1. 什么是 P-Value?
这是统计学中最重要的基本概念,所谓 P-Value 是指拒绝 H0 所犯的第一类错误,
通常阈值是 0.05.也就是说,不管是什么统计量(F 统计量,T 统计量,卡方统计量
等等),在 H0 假设成立下都会有一个唯一对应的 P-Value,如果算出来的 P-Value
小于阈值,则说拒绝 H0,反之,不能拒绝 H0,但是千万不要说接受 H0!
2. 什么是点估计和区间估计?
点估计:利用样本数据对未知参数进行估计 得到的是一个具体的数据。
区间估计:通过样本数据估计未知参数在置信度下的最可能的存在区间 得到的结果是
一个区间。
3. 什么是置信区间?
在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。
4. 什么是 LSE(Least Squares Estimation)和 MLS (Maximum Likelihood
Estimation) ?
LSE 是最小化误差的平方和估计分布中参数出现的值。MLS 是估计分布中参数最
大可能出现的值(注意:不是最大值,是最大可能性)。不管是 LSE 还是 MLS,
其样本背后所隐含的分布都是假设为已知分布。这一点请务必注意。考虑一个抛硬
币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛 80 次(即,我
们获取一个采样 并把正面的次数记下来,正面
记为 H,反面记为 T)。并把抛出一个正面的概率记为 p,抛出一个反面的概率记
为 1 − p(因此,这里的 p 即相当于上边的θ)。假设我们抛出了 41 个正面,39 个
反面,即 41 次 H,39 次 T。由于它背后隐含的是二项分布,使用最大似然估计,
通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个
可能性函数取以下三个值中的一个:
3941
3941
3941
)411()41(
41
80
)4139,41(
)211()21(
41
80
)2139,41(
)311()31(
41
80
)3139,41(
�
�
�
�
�
�
�
�
�
�����
�
�
�
�
�
�
�
�
�
�����
�
�
�
�
�
�
�
�
�
�����
pTH
pTH
pTH
可以计算,当 p=1/2 时,可能性函数取得最大值。这就是 P 的最大似然估计.
5. 选择预测模型时一定要考虑响应变量分布吗?
不一定:当我们只预测响应变量的点估计时,不需要考虑,此时点估计的值只和你
假定的 Y 与 X 之间的关系有关,于 Y 是什么分布无关。可以通过 LSE 或者 MLS
来估计 Y 的值。但是如果我们要预测 Y 值的区间估计,或者要对预测系数进行显
著性检验时,就需要考虑 Y 是什么分布了。
二、logistic 回归模型
假设在自变量 X1,X2,…,Xn 作用下,某事件发生的概率为 P, 则该事件不发生的概
率为 1-P, P/1-P 为发生概率和不发生概率之比,记做“优势”(Odds),若对 Odds 取自
然对数,得到:
)
1
ln()ln()(log
p
p
oddspit
�
��
称为 P 的 logit 变换,则 logistic 回归模型为:
ss
XXX
p
p
pit
����
�����
�
� �
22110
)
1
ln()(log
则概率计算公式为:
�
�
�
�
���
�
e
p
p
p
1
1
)
1
ln(
Logistic 回归模型与一般线性回归模型的区别:
第一,线性回归模型的结果变量(outcome variable)或因变量(dependent
variable)或反应变量(response variable)与自变量之间的关系是线性
的,而 Logistic 回归中因变量与自变量之间关系是非线性的。
第二,在线性回归中通常假设,对应自变量 X 的某个值,因变量 Y 的观测值具
有正态分布,但是在 logistic 回归中,因变量 Y 却是二项发布(0 和 1)
或多项分布。
第三,在 logistic 回归中,不存在线性回归中有的残差项。
三、Logistic 回归模型估计方法论和假设条件
Logistic 回归模型估计采用是 MLS 方法论来估计参数。其假设条件与 LSE 回归比
较类似。
第一,数据必须来自随机样本。
第二,因变量 Y 被假定为 K 个自变量的函数。
第三,自变量是确定性变量,不是随机变量。
第四,正如 LSE 回归,logistic 回归也对多元共线性(muliti-collinearity)敏感。自
变量之间存在多元共线性也会导致标准误的膨胀。
但是还有一些与 LSE 不同的假设:
第一,因变量 Y 是分类变量,研究的兴趣是在 X 发生时事件发生的条件概率。
第二,自变量和因变量之间是非线性关系,可以通过 Logit 函数转换成线性关
系。
第三,在 LSE 回归中对残差要求独立同分布(IID),但在 logistic 中却不需要,
因为 logistic 没有残差项。
四、logistic 回归模型评价
在实际应用中,人们往往只对回归模型自身的“好坏”以及回归系数的显著性关
注,评价回归模型“好坏”的主要指标有:
1. 拟合优度(goodness of fit)
拟合优度度量的是预测值和观测值之间的一致性。但是在评价模型时,实际上测量
的是预测值和观测值之间的差别,也就是说,我们实际上检验的是模型预测的“劣
度”,而不是“优度”,即拟合不佳检验(lack of fit test)。常用的两个指标:
Hosmer-Lemeshow 指标和信息测量指标(Information Measures)。
剩余14页未读,继续阅读
资源评论
平头哥在等你
- 粉丝: 2
- 资源: 7332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功