没有合适的资源?快使用搜索试试~ 我知道了~
机器学习中评估分类模型性能的重要指标分析总结.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 187 浏览量
2022-11-05
12:30:28
上传
评论
收藏 872KB DOCX 举报
温馨提示
试读
19页
。。。
资源推荐
资源详情
资源评论
机器学习中评估分类模型性能的重要指标分析总结
构建机器学习模型的想法应基于建设性的反馈原则。你
可以构建模型,从指标得到反馈,不断改进,直到达到理想
的准确度。评估指标能体现模型的运转情况。评估指标的一
个重要作用在于能够区分众多模型的结果。
很多分析师和数据科学家甚至都不愿意去检查其模型的
鲁棒性。一旦完成了模型的构建,他们就会急忙将预测值应
用到不可见的数据上。这种方法不正确。
我们的目的不能是简单地构建一个预测模型。目的是关
于创建和选择一个对样本以外数据也能做到高精度的模型。
因此,在计算预测值之前,检查模型的准确性至关重要。
在这个行业中,大家会考虑用不同类型的指标来评估模
型。指标的选择完全取决于模型的类型和执行模型的计划。
模型构建完成后,这 11 个指标将帮助评估模型的准确
性。考虑到交叉验证的日益普及和重要性,本文中也提到了
它的一些原理。
预测模型的类型
说到预测模型,大家谈论的要么是回归模型(连续输
出),要么是分类模型(离散输出或二进制输出)。每种模
型中使用的评估指标都不同。
在分类问题中,一般使用两种类型的算法(取决于其创
建的输出类型):
1. 类输出: SVM 和 KNN 等算法创建类输出。例如,在二
进制分类问题中,输出值将为 0 或 1。但如今,有算法可以
将这些类输出转换为概率输出。但是,统计圈并不是很乐意
接受这些算法。
2. 概率输出:逻辑回归 ( Logistic Regression ) ,随
机 森 林 ( Random Forest ) , 梯 度 递 增 ( Gradient
Boosting ) ,Adaboost 等算法会产生概率输出。将概率输出
转换为类输出只是创建一个阈值概率的问题。
1
在回归问题中,输出时不会出现这种不一致性。输出本
来就是一直连续的,不需要进一步处理。
例证
关于分类模型评估指标的讨论,笔者已在 Kaggle 平台
上对 BCI 挑战做了预测。问题的解决方案超出了此处讨论的
范围。但是,本文引用了训练集的最终预测。通过概率输出
预测该问题,假设阈值为 0.5 的情况下,将概率输出转换为
类输出。
混淆矩阵是一个 N×N 矩阵, N 是预测的类的数量。针对
目前的问题,有 N = 2 ,因此得到一个 2×2 的矩阵。你需要
记住以下这些关于混淆矩阵的定义:
· 准确性:正确预测的结果占总预测值的比重
· 阳性预测值或查准率:预测结果是正例的所有结果
中,正确模型预测的比例
· 阴性预测值:预测结果是负例的所有结果中,错误
模型预测的比例。
· 敏感度或查全率 :在真实值是正例的结果中,正确
模型预测的比重。
· 特异度:在真实值是负例的所有结果中,正确模型
预测的比重。
2
目前案例的准确率达到 88 %。从以上两个表中可以看
出,阳性预测值很高,但阴性预测值很低,而敏感度和特异
度一样。这主要由选择的阈值所造成,如果降低阈值,两对
截然不同的数字将更接近。
通常,大家关注上面定义的指标中的一项。例如,一家
制药公司,更关心的是最小错误阳性诊断。因此,他们会更
关注高特异度。另一方面,消耗模型会更注重敏感度。混淆
矩阵通常仅用于类输出模型。
在上一节中,讨论了分类问题的查准率和查全率,也强
调了在用例中选择查准率和查全率的重要性。如果对于一个
用例,想要试图同时获得最佳查准率和查全率呢? F1-Score
是分类问题查准率和查全率的调和平均值。其公式如下:
现在,一个显而易见的问题是,为什么采用调和平均值
而不是算术平均值呢?这是因为调和平均值可以解决更多极
值。通过一个例子来理解这一点。有一个二进制分类模型的
结果如下:
这里,如果采用算术平均值,得到的结果是 0.5 。很明
显,上面的结果是一个“傻子”分类器处理的,忽略了输
入,仅将其预测的其中一个类作为输出。现在,如果要取调
和平均值,得到的结果就会是 0,这是准确的,因为这个模
型对于所有的目的来说都是无用的。
这看似很简单。然而在有些情况下,数据科学家更关心
查准率和查全率的问题。稍稍改变上面的表达式,包含一个
可调参数β来实现该目的,得出:
3
Fbeta 衡量模型对用户的有效性,用户对查全率的重视
程度是查准率的β倍。
增益图和提升图主要用于检查概率的顺序。以下是构建
提升图 /增益图的步骤:
步骤 1:计算每个样本的概率。
步骤 2:按降序排列这些概率。
步骤 3:每组构建十分位数时都有近 10% 的样本。
步 骤 4 : 计 算 每 个 十 分 位 数 的 响 应 率 , 分 为
Good( Responders ) 、Bad( Non-responders ) 和总数。
你会获得下表,需要据此绘制增增益图或提升图:
表格提供了大量信息。累积增益图介于累计 %Right 和
累计 %Population 图之间。下面是对应的案例图:
4
剩余18页未读,继续阅读
资源评论
G11176593
- 粉丝: 6663
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功