没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
11页
15.1 模型评估与优化解决的问题 如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响? 对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什么选择模型A,而不是模型B?凭经验?还是。。。各个模型的特性指标能否横向可视化对比? 系统能否从多个可选模型中自动为我们推荐一个最好的模型算法? 某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法有哪些? 在保证预测准确性的同时,能否提高挖掘流程执行的速度? 15.2 预测模型算法评价指标 模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。 (1) 绝对误差与相对误差 设Y表示实际值,Yˆ表示预测值,则称E为绝对误差(AbsoluteError),计算公式如下: (2) 平均绝对误差 平均绝对误差(MeanAbsoluteError , MAE)定义如下:
资源推荐
资源详情
资源评论
326
第 15 章 模型评估与优化
15.1 模型评估与优化解决的问题
如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响?
对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什
么选择模型 A,而不是模型 B?凭经验?还是。。。各个模型的特性指标能否横向可视化
对比?
系统能否从多个可选模型中自动为我们推荐一个最好的模型算法?
某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法
有哪些?
在保证预测准确性的同时,能否提高挖掘流程执行的速度?
15.2 预测模型算法评价指标
模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差
等指标来衡量。
(1) 绝对误差与相对误差
设
Y
表示实际值,
Y
ˆ
表示预测值,则称
E
为绝对误差(AbsoluteError),计算公式如
下:
ˆ
EYY
=-
(15- 1)
e
为相对误差(RelativeError),计算公式如下:
Y
YY
e
ˆ
−
=
(15- 2)
有时相对误差也用百分数表示:
%100*
ˆ
Y
YY
e
−
=
(15- 3)
这是一种直观的误差表示方法。
(2) 平均绝对误差
平均绝对误差(MeanAbsoluteError , MA E )定义如下:
327
∑∑
==
−==
n
i
ii
n
i
i
YY
n
E
n
MAE
11
|
ˆ
|
1
||
1
(15- 4)
式中各项的含义如下:
MAE
:平均绝对误差
i
E
:第
i
个实际值与预测值的绝对误差
i
Y
:第
i
个实际值
i
Y
ˆ
:第
i
个预测值
由于预测误差有正有负,为了避免正负相抵消,故取误差的绝对值进行综合并取其平均
数,这是误差分析的综合指标法之一。
(3) 均方误差
均方误差(MeanSquaredError , MSE)定义如下:
∑∑
==
−==
n
i
ii
n
i
i
YY
n
E
n
MSE
1
2
1
2
)
ˆ
(
11
(15- 5)
式中,
MSE
表示均方差,其他符号同前。
本方法用于还原平方失真程度。
均方误差是预测误差平方之和的平均数,它避免了正负误差不能相加的问题。由于对误
差
E
进行了平方,加强了数值大的误差在指标中的作用,从而提高了这个指标的灵敏性,
是一大优点。均方误差是误差分析的综合指标法之一。
(4) 均方根误差
均方根误差(RootMeanSquaredError , RMSE)定义如下:
∑∑
==
−==
n
i
ii
n
i
i
YY
n
E
n
RMSE
1
2
1
2
)
ˆ
(
11
(15- 6)
式中,
RMSE
表示均方根误差,其他符号同前。
这是均方误差的平方根,代表了预测值的离散程度,也叫标准误差,最佳拟合情况为
0RMSE
=
。均方根误差也是误差分析的综合指标之一。
(5) 平均绝对百分误差
平均绝对百分误差(MeanAbsolute PercentageErro r , MAPE)定义如下:
∑∑
==
−==
n
i
iii
n
i
ii
YYY
n
YE
n
MAPE
11
|/)
ˆ
(|
1
|/|
1
(15- 7)
式中,
MAPE
表示平均绝对百分误差。一般认为
MAPE
小于 10 时,预测精度较高。
(6) Kappa 统计
328
Kappa 统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观
测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基
础的统计指标。Kappa 统计量和加权 Kappa 统计量不仅可以用于无序和有序分类变量资料的
一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。
Kappa 取值在[-1,+1]之间,其值的大小均有不同意义:
Kappa = +1 说明两次判断的结果完全一致
Kappa = -1 说明两次判断的结果完全不一致
Kappa = 0 说明两次判断的结果是机遇造成
Kappa < 0 说明一致程度比机遇造成的还差,两次检查结果很不一致,在实际应用
中无意义
Kappa > 0 此时说明有意义,Kappa 愈大,说明一致性愈好
Kappa≥0.75 说明已经取得相当满意的一致程度
Kappa<0.4 说明一致程度不够
(7) 识别准确度
识别准确度(Accuracy)定义如下:
100%
TP FN
Accuracy
TP TN FP FN
+
= ×
+++
(15- 8)
式中各项说明如下:
TP(True Positives):正确的肯定表示正确肯定的分类数
TN(True Negatives):正确的否定表示正确否定的分类数
FP(False Positives):错误的肯定表示错误肯定的分类数
FN(False Negatives):错误的否定表示错误否定的分类数
(8) 识别精确率
识别精确率(Precisio n)定义如下:
100%
TP
Precision
TP FP
= ×
+
(15- 9)
(9) 反馈率
反馈率(Recall)定义如下:
100%
TP
Recall
TP TN
= ×
+
(15- 10)
(10) ROC 曲线
受试者工作特性(Receiver Operating Characteristic,ROC)曲线是一种非常有效的模型
评价方法,可为选定临界值给出定量提示。将灵敏度(Sensitivity)设在纵轴,1-特异性
剩余10页未读,继续阅读
资源评论
passionSnail
- 粉丝: 408
- 资源: 5624
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功