Logistic-statistic-model.doc资源-CSDN文库

172 浏览量 2024-05-15 08:58:26 上传评论收藏 889KB DOC 举报

资源推荐

资源详情

资源评论

Logistic Statistic Model

一、基本概念

1. 什么是 P-Value？

这是统计学中最重要的基本概念，所谓 P-Value 是指拒绝 H0 所犯的第一类错误，

通常阈值是 0.05.也就是说，不管是什么统计量(F 统计量，T 统计量，卡方统计量

等等)，在 H0 假设成立下都会有一个唯一对应的 P-Value，如果算出来的 P-Value

小于阈值，则说拒绝 H0，反之，不能拒绝 H0,但是千万不要说接受 H0！

2. 什么是点估计和区间估计？

点估计：利用样本数据对未知参数进行估计得到的是一个具体的数据。

区间估计：通过样本数据估计未知参数在置信度下的最可能的存在区间得到的结果是

一个区间。

3. 什么是置信区间？

在一定置信水平时，以测量结果为中心，包括总体均值在内的可信范围。

4. 什么是 LSE（Least Squares Estimation）和 MLS (Maximum Likelihood

Estimation) ？

LSE 是最小化误差的平方和估计分布中参数出现的值。MLS 是估计分布中参数最

大可能出现的值（注意：不是最大值，是最大可能性）。不管是 LSE 还是 MLS，

其样本背后所隐含的分布都是假设为已知分布。这一点请务必注意。考虑一个抛硬

币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛 80 次（即，我

们获取一个采样并把正面的次数记下来，正面

记为 H，反面记为 T）。并把抛出一个正面的概率记为 p，抛出一个反面的概率记

为 1 − p（因此，这里的 p 即相当于上边的θ）。假设我们抛出了 41 个正面，39 个

反面，即 41 次 H，39 次 T。由于它背后隐含的是二项分布，使用最大似然估计，

通过这些试验数据（即采样数据），我们可以计算出哪个硬币的可能性最大。这个

可能性函数取以下三个值中的一个：

3941

)411()41(

)4139,41(

)211()21(

)2139,41(

)311()31(

)3139,41(

�

��

�

��

�

��

pTH

可以计算，当 p=1/2 时，可能性函数取得最大值。这就是 P 的最大似然估计.

5. 选择预测模型时一定要考虑响应变量分布吗？

不一定：当我们只预测响应变量的点估计时，不需要考虑，此时点估计的值只和你

假定的 Y 与 X 之间的关系有关，于 Y 是什么分布无关。可以通过 LSE 或者 MLS

来估计 Y 的值。但是如果我们要预测 Y 值的区间估计，或者要对预测系数进行显

著性检验时，就需要考虑 Y 是什么分布了。

二、logistic 回归模型

假设在自变量 X1,X2,…,Xn 作用下，某事件发生的概率为 P, 则该事件不发生的概

率为 1-P, P/1-P 为发生概率和不发生概率之比，记做“优势”(Odds),若对 Odds 取自

然对数，得到：

)

ln()ln()(log

oddspit

�

��

称为 P 的 logit 变换，则 logistic 回归模型为：

XXX

pit

��

�

� �

22110

)

ln()(log

则概率计算公式为：

�

��

�

)

ln(

Logistic 回归模型与一般线性回归模型的区别：

第一，线性回归模型的结果变量（outcome variable）或因变量（dependent

variable）或反应变量（response variable）与自变量之间的关系是线性

的，而 Logistic 回归中因变量与自变量之间关系是非线性的。

第二，在线性回归中通常假设，对应自变量 X 的某个值，因变量 Y 的观测值具

有正态分布，但是在 logistic 回归中，因变量 Y 却是二项发布（0 和 1）

或多项分布。

第三，在 logistic 回归中，不存在线性回归中有的残差项。

三、Logistic 回归模型估计方法论和假设条件

Logistic 回归模型估计采用是 MLS 方法论来估计参数。其假设条件与 LSE 回归比

较类似。

第一，数据必须来自随机样本。

第二，因变量 Y 被假定为 K 个自变量的函数。

第三，自变量是确定性变量，不是随机变量。

第四，正如 LSE 回归，logistic 回归也对多元共线性(muliti-collinearity)敏感。自

变量之间存在多元共线性也会导致标准误的膨胀。

但是还有一些与 LSE 不同的假设：

第一，因变量 Y 是分类变量，研究的兴趣是在 X 发生时事件发生的条件概率。

第二，自变量和因变量之间是非线性关系，可以通过 Logit 函数转换成线性关

系。

第三，在 LSE 回归中对残差要求独立同分布(IID)，但在 logistic 中却不需要，

因为 logistic 没有残差项。

四、logistic 回归模型评价

在实际应用中，人们往往只对回归模型自身的“好坏”以及回归系数的显著性关

注，评价回归模型“好坏”的主要指标有：

1. 拟合优度（goodness of fit）

拟合优度度量的是预测值和观测值之间的一致性。但是在评价模型时，实际上测量

的是预测值和观测值之间的差别，也就是说，我们实际上检验的是模型预测的“劣

度”，而不是“优度”，即拟合不佳检验（lack of fit test）。常用的两个指标：

Hosmer-Lemeshow 指标和信息测量指标（Information Measures）。

剩余14页未读，继续阅读

评论收藏

内容反馈

平头哥在等你

粉丝: 2
资源: 7332

Logistic-statistic-model.doc

94-acuracy-on-the-final-logistic-regression-model.ipynb

iris1 logistic-Lasso-Ridge-LinearRegression.ipynb

(完整word)Logistic回归-样本量估算.doc

Bayesian-Logistic-Regression.ipynb

Matlab软包的Logistic回归实现).doc.pdf

Matlab软包的Logistic回归实现).doc.docx

7-多元Logistic-回归分析.ppt

各种回归模型适用条件-logistic回归-(2).pdf

论文研究-基于Logistic-CA-Markov模型的用地变化动态模拟 .pdf

4-from-linear-regression-to-logistic-regression.zip

机器学习-实验指导书.pdf

2d-logistic-regression-demo.rar_2d Logistic_2d-logistic_DEMO_Log

Coursera-ML-AndrewNg-master.zip

logistic-2-classification_printout.pdf

预测模型-logistic-master.zip

K-均值和logistic回归.rar_K._k均值聚类_logistic regression_look11h_回归

数据分析.docx

颅脑损伤院内获得性肺炎预测：一项基于机器学习的PCA-Logistic回归分析模型.pdf

from-linear-regression-to-logistic-regression.pdf

北邮大三上2022年《算法设计与分析》期末试题-A卷

1000套计算机毕业设计带源码

2019city.zip

计算机毕业设计答辩PPT模板（11套）.zip

MATLABSimulink电力系统建模与仿真

计算机统考408思维导图xmind

浙江理工大学-计算机组成原理-实验一-运算器实验（完整报告）

头歌实践教学平台 MIPS流水CPU设计---HUST

计算机毕设答辩-写作技巧-ppt-计算机毕设答辩ppt 怎么写-计算机毕设答辩ppt写作技巧-计算机-毕设-答辩-ppt

计算机理论问答集锦包括OS、计算机组成原理等课程

最新资源