准确测量机器学习模型的误差

所需积分/C币:6 2019-07-02 625KB PDF
评分

在机器学习模型的效果评估中,预测误差的分析是重中之重。对于现有的各种误差测量技术,如果 使用不当,会得出极具误导性的结论。这些结论会误导模型设计者设计出过拟合的模型,过拟合是 指训练出的模型对于训练集拟合的很好,但是对于新的样本集则预测效果极差。这篇文章描述了如 何正确的测量模型误差,以避免此类问题。
真正的实际误差(除非你能得到数据空间的全部数据),但是有诸多方式可以帮助我们对实际误差 进行准确估计。本文的第二章节将介绍一些相关的误差估计方法。 实例:不合理的误差测量导致的悲剧 我们通过一个常见的建模流程展示使用训练集误差作为实际误差所带来的陷阱2。我们首先随机生 成100个样本数据。每个样本数据有一个目标字段和50个特征字段。例如,目标字段是一种树的生 长速率,而特征字段包括降水量、湿度、气压、经纬度等等。在这个例子中,每个样本数据都是完 全独立随机生成的,因此这份数据的字段间毫无关系 然后我们建立一个线性回归模型来预测生长速率。因为我们知道特征和目标字段没有相关性,所以 我们期望得到的结果是R2为0。不幸的是我们的模型最后报告R2为05。这不科学啊!我们 的数据明明只是一些噪声数据。不过别急,我们还可以通过F检验来对模型进行确认。这个可以衡 量模型的显著性,用以识别回归出的相关关系是不是只是因为偶然性得到的。「检验的ρ值为0.53, 这表明回归模型不显著。 如果到此为止,一切看起来没有问题;我们应该丟弃这个模型,因为模型并不显著(当然了,这只 不过是一些噪声数据!)。不过很多人通常接下来不会彻底丢弃这个模型,而是丢弃那些不显著的 特征,然后保留相对显著的特征再次做回归。让我们假设留下显著性水平低于25%的特征,在这个 例子中有21个。接着我们再次训练回归模型 在第二次训练后,我们得到: R2为0.36 p值为5*10-4 6个参数的显著性水平达到5% 再强调一下,我们的数据完全是噪声;不可能有任何相关性。但是我们第二次却得到了一个高显著 性的模型,证据就是有意义的尺2值(在社会科学领域这个值相对较高)和6个显著的参数! 这是一个令人困惑的结果,我们建模的过程似乎并无不妥,但是却得到了一个匪夷所思的错误结 论。这个例子展示了在统计过程中如果不能准确测量误差,则会得到具有严重缺陷的模型。 误差的测量方法 使用 Adjusted R2 尺2被广泛用于衡量模型的拟合程度。它的计算非常简单。首先对模型进行训练,然后计算每个 训练数据实际值与预测值的差,将这些差的平方和相加,然后与參模型的预测误差平方和做对比。 零模型用训练数据集囯标字段的的平均值作为预测值。零模型可以看做最简单的预测模型,以此作 为基准来评价其它模型的效果。其数学表示如下 尺2=1-模型的误差平方和零模型的误差平方和 尺2的意义非常直观。如果模型的效果并不比零模型号多少,则尺2接近0,而如果我们的模 型效果远好于零模型,则尺2接近1。R2作为一个直观易于理解的评价指标,广泛用于各种 回归模型的效果检测。 通常R2是根据模型在训练集上的效果计算的。如前文所示,即使是高R2数据本身可能也只 是堆噪声。实际上对于样本容量为η、参数为p的纯噪声数据,尺2的期望存在一个解析表达 式: E[R2]=p 根据这个公式可以在具体情况下判定R2是否有意义。例如上例中,我们的模型有50个参数和 100个训练数据,R2的期望为50/100,也就是05。 尺2有—个变种指标叫做 Adjusted R2,这个指标会对模型的复杂度做出惩罚。随着参数的增 加, Adjusted R2对在R2的基础上变小。 Adjusted R2的公式为 Ad justed R2=1-(1-R2 )n-1 n-p-1 标准的R2会随着模型复杂度增加而变大,而 adjusted R2克服了这个缺点,因此我们应该总 是使用 adjusted F2而不是R2。当然 adjusted R2也不能完美的评估实际误差。实际上 adjusted R2一般对模型复杂度的惩罚力度会有所欠缺,所以如果模型足够复杂, adjusted R2也会失效。 因此 adjusted R2也会出线过拟合现象。另外, adjusted R2的许多假设在实际中也不一定成 立。这也会导致 adjusted R2给出错误的结论 优点 便于应用 内建于许多分析程序中 计算速度快 解释性好3 缺点 通用性不高 仍然有过拟合风险 信息论方法 有一些方法可以用于评估相对于真实模型来说我们的模型丢失了多少信息。当然我们是无法获知真 实模型的(真正产生训练数据的实际模型),但是在一些前提下我们仍然有办法估计模型的信息丟 失程度。信息丢失越多,则模型误差越高,效果越差。 信息论方法假设模型是一个参数模型( parametric model)。在这个前提下,我们可以根据参数和 数据来定义训练数据的似然率( likelihood),不严格的说,似然率是指观测到的这组训练数据出现 的概率4。如果我们调整参数使得这组数据的似然率最大,则得到这组参数的最大似然估计。于是 我们就可以利用信息论的方法来比较不同模型和它们的复杂度,以此确定哪个模型最接近真实模 型 最常用的信息论方法是 Akaike信息准则( Akaike' s Information criteria,简称AC)。AC被定义为 一个关于模型似然率及模型参数的函数: A/C=-2In(Likelihood )+2p 如同其它误差评价准则,我们的目标是最小化AC。AC的公式很简洁。第一部分 2( Likelihood))可以被视为训练集下的误差率,第二部分(2p)可视为对模型乐观性的惩 罚, 除了AC外还有许多基于信息论的判定准则。下面列举两个其它信息准则,与AC相比其区别在于 对乐观性的惩罚方式不同,下面两个准则对乐观性的惩罚还与样本容量n有关 A/CC=-2In (Likelihood )+2p+2p(p+1)n-p-1 B/C=-2In(Likelihood )+pIn(n) 如何选择合适的信息准则是非常复杂的,涉及大量理论、实践甚至是哲学因素。实际中决定选用哪 个准则要具体情况具体分析,甚至带有一定信仰成分。 优点 便于应用 内建于许多高级分析程序中 缺点 需要具体情况具体分析 需要模型能够计算似然率5 学术界对于这种方法的理论基础还存在诸多争议 测试集 上面提到的方法都只能用于参数模型,并且对模型有一些理论假设。如果这些假设不成立,则上面 的方法效果将会很查。还好,实践中还有一些其它类型的方法,这些方法对模型没有仼何假设,仅 仅通过对数据集做处理来估计实际误差。 其中最简单的方法便是测试集方法。我们首先将样本数据集分为两份。一份用于模型训练;另一份 用于效果评测。例如我们有1000个数据,我们可以用700个训练模型,剩下的300个评估模型。 Data Training Test 这个方法可以说是测量模型误差的标准方法。模型实际误差被定乂为模型对于新数据的预测误差。 而通过预留测试集,我们可以直接测量这个误差 测试集方法的代价是要减少部分训练数据。例如上面我们从训练集中移除了30%的数据。这意味 着相比于使用全量集合训练来说,我们的模型会存在更大的偏差。在标准的流程中,评价完模型效 果后,我们会用全量数据重新训练来得到最终的模型。因此在这种情流程下,测试集的误差评价结 果是偏矦子的,因为模型的实际误差要比报告的误差低一些。在实际中这种保守的误差估计要比乐 观的误差估计更有效 这种技术的一个要点是在得到最终模型前不能以任何方式分析或使用测试集。一个常见错误是在效 果评估后重新调整模型然后再次训练评估。如果在一次建模中你重复使用-份测试集,这份测试集 就被污染了。由于测试集参与了模型调整,它就不能再给出模型误差的一个无偏估计了。 优点 对模型没有假设 数据足够多时,准确度较高 易于实现和使用 易于理解 缺点 估计偏保守 次使用即被污染 需要确定测试集比例(一般在70%-30%之间) 交叉验证及重新取样 有时,对于模型训练来说保留一部分数据作为测试集的方式有些代价过高。这时一些基于重新取样 的方法如交叉验证就比较有用了。 交叉验证将数据集平均分成η份。例如我们将100个数据分成5份,每份20个数据点。然后我们重复 做5轮误差测量。在每轮中,取其中4份(共80个数据点)训练模型,剩下的1份检验模型。然后将 5轮测得的误差取平均值,最为对实际误差的估计 Data Traini Test Test lest lest 可以看到,交叉验证与测试集方法很类似。不同之处在于交叉验证中每个数据既参与模型训练又参 与模型检测,只不过不在同一轮里。当数据集不是很大时,交叉验证比测试集方法要更值得推荐 些,因为交叉验证不需要移除训练数据。交叉验证同时还能给出误差估计的稳定性度量,这是一个 非常有用的指标。不过如果主要目标是衝量估计的稳定性,一些其它的重新取样方法如 Bootstrapping更值得试。 交叉验证的一个最大问题是确定分组数。一般来说,分组数越小则估计偏差越大(往往偏保守,也 就是报告的误差比实际误差要大)但是方差越小。极端情况下,你可以每一个样本点分一个组,这 叫做 Leave- One-Out-Cross- Validation。此时对误差的估计基本没有偏差,但是方差会很大。理解 偏差-方差权衡对于确定分组数是非常重要的。另一个需要关注的点是计算效率。对于每一个分 组,你都要训练一个新的模型,所以如果训练过程比较慢的话,还是分少点组为好。最后说一下 根据经验一般把分组数定为5或10是比较合适的选择。 优点 对模型没有假设 数据足够多时,准确度较高 易于理解 缺点 计算效率低 需要确定分组数 估计偏保守 做出选择 总结一下,我们一共讨论了下列测量模型误差的技术 Adjusted R 2 信息论方法 测试集方法 交叉验证及重新取样 作为模型设计者,首先要决定是否依赖前面两个方法对模型的假设条件。如果不是的话,则可以选 择后面两个模型。 般来说,基于假设条件的模型更便于使用,不过选择这种易用性的同时要付出一些代价。首先就 是,对于实际情况来说这些假设都不是完全成立的。至于是否近似成立要具体情况具体分析。很多 时候这些假设基本是成立的,不过一旦实际情况与假设出入较大,那么这些方法所得出的结论就完 全不可信了。 就我个人的经验来说,我更偏好交叉验证。因为交叉验证不需要对模型的假设,而且估计效果较 好。对于交叉验证来说最主要的消耗是计算资源,不过随着现在计算机计算能力越来越强,这一点 可以不用过多担心。对于需要假设的模型来说,虽然实际中很多模型都是参数模型,但是并没有一 个有效的方法去判断模型是否符合假设。因此使用这些方法时心里总是存在一点疑虑。而交叉验证 虽然计算资源消耗多一点,但是其结论总是更让人放心 Footnote 1.仅对于损失函数是凸的(没有局部最大值和最小值)统计模型来说是这样。如果损失函数存在局部最大 值或最小值,增加参数会令模型无法收敛到全局最优值,从而导致训练集误差也会变大。不过对于一些常 见的模型(如线性回归及逻辑回归)其损失函数都是凸函数。 2.这个例子取自 Freedman,L.S.,&Pee,D.(1989). Return to a note on screening regression equations The American Statistician, 43(4), 279-282 3.虽然 adjusted R2与R2是不同的统计量,不过两者有类似的直观解释。但是与标准尺2相比, adjusted R2可以是负数(表示这个模型比零模型效果更差)。 4.这个定义是不严格的,因为对于连续随机变量,获得这组数据的概率为0。如果让你从0到1之间随机取 一个数,则你取到0.724027299329434的几率为0。你无法准确写出这个数因为其小数部分是无穷的。 似然率是通过让模型的概率密度函数取特定值计算岀来的。要获得真正的概率,你需要对概率密度函数在 个区间上求积分。因为似然率不是一个概率值,所以它可能大于1。尽管如此,将似然率看做“给定数据 集出现的概率”对于直观理解其意义是有帮助的;不过心里要清楚意识到,这在数学上是不准确的! 5.这一点限制了信息论方法的适用范围,诸如随机森林与人工神经网络等模型均无法应用此方法。

...展开详情
立即下载 最低0.43元/次 身份认证VIP会员低至7折
举报 举报 收藏 收藏
分享
3.65MB
基于机器视觉的零件尺寸测量 20181126

基于机器视觉的零件尺寸测量 .

2018-11-26 立即下载
1.11MB
基于机器视觉的零部件尺寸测量

基于机器视觉的零部件尺寸测量,尺寸测量是机器视觉的主要应用之一。机器视觉的介入,提高了测量精度,解决了测量空间狭小等问题,这种测量方法不但速度快、非接触、易于自动化,而且准确率高。

2014-03-01 立即下载
2.81MB
机器视觉测量技术

机器视觉测量技术.pdf

2015-12-24 立即下载
1.69MB
机器视觉测量技术.pdf

很好用课程我在大学必修 超有用的机器视觉测量技术.pdf

2014-03-22 立即下载
375KB
利用福禄克8808A万用表准确测量纳安级小电流.pdf

利用福禄克8808A万用表准确测量纳安级小电流

2019-09-05 立即下载
436KB
研究论文-高值电阻准确测量方法.pdf

为了能更加准确地测量出高值电阻的阻值,文章设计了各硬件模块,给出了电路的计算算法.将普通的惠斯通电桥加以改进,使电桥臂形成等效、准确度高、能与待测电阻相匹配的电路,并运用单片机实现测试的智能化,对改进后的高值电阻测量电路进行了验证测试及分析,得出了电压差以及电阻误差.结果表明本设计的电路对高值电阻的测量误差较小,操作简便,可以方便地运用于工程实际.

2019-08-07 立即下载
2.23MB
机器视觉测量技术........

机器视觉测量技术.pdf........................................

2010-12-17 立即下载
47.4MB
机器视觉测量

做视觉测量的同学,比如双目测量,多目视觉测量系统,结构光,摄像机的标定等等。常用的算法这本书都有,由北航大牛,张广军教授编写。。感兴趣的同学下载下来。绝对是视觉测量的好书。

2013-03-25 立即下载
230KB
GPS-RTK高程测量代替四等水准测量的实践

GPS-RTK高程测量代替四等水准测量的实践,孙清,郑南山,本文简要介绍了GPS高程测量的基本原理、GPS-RTK测量原理以及坐标转换方法等,在此基础上,讨论分析了运用GPS-RTK技术进行高程测量精度�

2020-03-10 立即下载
655KB
机器视觉系统在汽车行业的现状及应用

为提高汽车试验的精度和自动化程度,试验过程中可以采用机器视觉来提高试验效率和试验结果的准确性。试验中采用摄像机对被测量物体进行图像采集,由计算机对所采集的图像进行相关处理得到试验结果。试验过程能够实现自动化测量和自动记录试验数据,试验结果的准确性要高于传统的人工测量方法。因此,基于机器视觉的测量方法在汽车试验领域能够得到广泛的应用和发展。

2014-06-30 立即下载
4.97MB
轻松工程测量系统2.3版完整版及注册机

轻松工程测量系统2.3版本:包含三个版本-----1.Windows系统电脑上运行版本; 2.Windows Mobile 6.1以上系统掌上电脑、PDA、智能手机版本; 3.支持JAVA功能软件的普通手机版本,共三个及相关注册机文件,已经可完美实现自己注册使用! 叹祸福兮?业界轻松工程测量系统2.3电脑版、Windows Mobile(WM系统)版、Java版三版,当下行业不景气,取消收费吧,谨借此共济业界可怜之测量众生以共渡时艰!

2012-02-22 立即下载
367KB
使用DMM系列简单准确测量电阻.pdf

对大多数数字万用表来说,准确测量毫微安级的低泄漏电流都是一项挑战。本应用指南介绍了测量待机电流的技巧,说明了泰克DMM400系

2019-09-05 立即下载
349KB
怎样才能准确测量示波器上的噪声?.pdf

到底怎样才能准确测量示波器上的噪声?文档中是简单的入门知识,介绍了怎样测量实时示波器上的噪声,以及在对比两台示波器时容易犯的错误。无论是哪个厂家的示波器,这些噪声标准均适用。

2019-07-23 立即下载
38KB
零件尺寸测量源代码(VS2013+OpenCV2.4.9)

机器视觉经典应用之尺寸测量,包含:灰度化,滤波,边缘检测,轮廓计算等。最后输出零件的长,宽等尺度参数。

2018-12-22 立即下载
4.78MB
误差理论与测量不确定度评定.pdf

误差理论与测量不确定度评定.pdf 数学 误差理论 机器学习 工业控制 数据分析

2018-12-05 立即下载
img
abacaba

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐