没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
肾炎的诊断
摘要
本文是一个这是一个判别类型的问题,在医学上是一个诊断问题,即从
样本个体的若干个量化特征来判断肾炎与否。我们针对这些信息根据 logistic
回归分析的相关功能,建立 logistic 回归分析判别模型。对于样本属性为肾炎
与否,这是一个二值响应的问题,我们采用二类样本判别分析方法,即响应变
量只有两个值,肾炎时就是 1,健康的时候就是 0。用 logistic 模型回归分析
处理二类样本判别时,选取阈值 0.5,使预报值在阈值 0.5 上下波动,当预报
值大于 0.5 时则说明样本属性为健康,当预报值小于 0.5 时则说明样本属性为
肾炎。同时利用连接函数 logit 将二值响应和影响到样本属性的多因素有机的结
合起来,使模型函数化,运用最大似然估计得到函数中的参数,得到一个模型
表达式,然后利用这个模型进行判别。在消除 logistic 回归模型分析中各变量
存在的多重共线性上面,我们采用主成分分析法,同样在最后利用得到的新模
型进行判别。
问题一中通过建立的模型对样本进行检验得出总预测准确率为 90%,对问
题二中待判别的样本个体进行模型检测时有 17 个肾炎患者,13 个正常人;问
题三中对样本进行检验得出总预测准确率为 90.91%,对问题四中待判别的样本
个体进行模型检测时有 17 个肾炎患者,13 个正常人;综合问题二和问题四,
就判别准确率而言,医生应该在检测的时候根据模型中对侧重元素所反映的信
息量对样本属性起主要作用的元素进行检测,这样便可以减少检测指标。
关键字 判别 logistic 回归分析 二值响应 二类样本判别分析
阈值 连接函数 主成分分析
问题重述
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人
员是否患肾炎时通常要化验人体内各种元素含量。表 B.1 是确诊病例的化验结
果,其中 1-30 号病例是已经确诊为肾炎病人的化验结果;31-60 号病例是已
经确诊为健康人的结果。表 B.2 是就诊人员的化验结果。我们的问题是:
1. 根据表 B.1 中的数据,提出一种或多种简便的判别方法,判别属于患者
或健康人的方法,并检验你提出方法的正确性。
2. 按照 1 提出的方法,判断表 B.2 中的 30 名就诊人员的化验结果进行判别,
判定他(她)们是肾炎病人还是健康人。
3. 能否根据表 B.1 的数据特征,确定哪些指标是影响人们患肾炎的关键或
主要因素,以便减少化验的指标。
4. 根据 3 的结果,重复 2 的工作。
5. 对 2 和 4 的结果作进一步的分析。
问题的假设
(1)不考虑化验人体的身高、体重、性别和年龄以及其它方面对记录数据的影响;
(2)医生在化验前对被化验的人所做的处理方式都是一样的,比如被检查的人在
化验前都不能是空腹;
(3)忽略人体内其它元素对问题中七种元素含量的影响;
(4)七种元素之间存在着一定的相互关系;
符号说明
i:被化验的个体;
j:被化验的特征,即元素的种类;
: 代表不同化验特征组合值:
:第 i 个个体的第 j 个特征值,统计学上叫做协变量;
:第 i 个个体肾炎属性,可取 0 和 1,0 代表没有患肾炎,1 代表患有肾炎;
m:样本中用于分析求解的个体数目;
p :特征量为 x 时属性为肾炎的概率;
:模型中各变量的系数 (j=0,1,2,3,4,5,6,7);
:主成分分析之中的主因子 (i (1,2,3,4,5,6,7))
问题分析
(1) 分析题意可知这是一个判别类型的问题,在医学上是一个诊断问题,即
从样本个体的若干个量化特征来判断肾炎与否。在统计学上,这是一个
所谓的二值响应问题,也称为二类样本判别分析方法,即响应变量只有
两个值,肾炎时就是 1,健康的时候就是 0;
(2) 问题中已经分别给定 30 个肾炎病人和 30 个健康人的训练样区的 7 个特
征 Zn,Cu,Fe,Ca,Mg,K,Na 的含量数据,根据这些数据确定一
个评判模型,然后利用这个模型来协助医生诊断待确定肾炎属性样本个
体,最重要的是要保证模型诊断精确度,确保在实际运用中的可信度和
可行性,从而有效的预测和判定样本个体的类别属性;
(3) 由于在化验的过程中,根据问题本身及有关经验,人们罗列出来可能与
因变量有关的特征量往往太多(问题中研究的数据中有 7 个),其中有
些变量对因变量可能影响很小或者根本没有影响,如果在最后的指标中
把这些变量都包含起来,不但计算量大,而且估计和预报的精度也会降
低,也会使这个指标在应用时的费用不必要的增高,因此我们在模型中
对进入模型中的特征量做精心的选择是十分必要的;
(4) Logistic 模型是一种非线性的回归分析模型,它通常是用于预测和判定未
知单元的类别属性。Logistic 模型这些功能恰好切合以上问题,先根据
训练样区,计算出样本个体的肾炎属性与各因子之间的关系式,进而得到
肾炎概率分布表达式,选取一定的阈值(0.5),最终在需要化验的样本区
域里面确定每个样本的肾炎属性;
(5) 在建立 Logistic 模型后,还要消除 logistic 回归模型分析中各变量存在
的多重共线性,即对所选取的特征量进行分类选择,选择出能够反映影
响人们患肾炎的关键或主要因素;
模型的建立
问题一
Logistic 回归模型的基本原理
(1)模型的连接
对于问题分析(1)中提到的二值响应数据,统计学上常用广义线性模型来处
理,即引进一个适当的严格增函数 G,称为连接函数。记 P(y=1︱X)=P 为给
定特征量为 x 时肾炎的概率,而当为特征量为 x 正常的概率时是 P(y=0︱
X)=1-P 则把
G(x)=
称作连接函数为 G 的广义线性模型。常用的链接函数有 logit,probit 和 log-
log。我们采用 logit 函数作为连接函数,Logit 函数定义为 ,
它有明确的统计意义,就是 Y 取值为 1 和 0 的概率比的对数。
采用 logit 函数作为联系函数的广义线性模型,称为 logistic 回归模型。
令 G(x)=logit P=
P——属性为肾炎的概率,1-P——属性为正常的概率
经变换 P= =
令 = (i=1,2,3,4,…)
其中 为参数向量,通常用最大似然估计来估计。
由最大似然准则, 的最大似然估计是使得似然函数
( ︱ ; )
取得最大值者,其中( , )为第 i 个个体。
(2)最大似然估计求参数向量
P(y=1︱X; )=P P(y=0︱X; )=1-P
剩余19页未读,继续阅读
资源评论
- cst28250232014-06-09很好,结构完整
fminsearch
- 粉丝: 2
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功