【免费】机器学习中的范数规则化1资源-CSDN文库

机器学习

需积分: 0 122 浏览量 2022-08-04 16:18:28 上传评论收藏 2.2MB PDF 举报

资源详情

资源评论

资源推荐

机器学习中的范数规则化

zouxy09@qq.com

http://blog.csdn.net/zouxy09



今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2

和核范数规则化。最后聊下规则化项参数的选择问题。知识有限，以下都是我一些浅显的看法，如果理解存在错误，

希望大家不吝指正。谢谢。



监督机器学习问题无非就是“minimizeyourerrorwhileregularizingyourparameters”，也就是在规则化参数的同

时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们

的训练数据。多么简约的哲学啊！因为参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误

差会很小。但训练误差小并不是我们的最终目标，我们的目标是希望模型的测试误差小，也就是能准确的预测新的样

本。所以，我们需要保证模型“简单”的基础上最小化训练误差，这样得到的参数才具有好的泛化性能（也就是测试误

差也小），而模型“简单”就是通过规则函数来实现的。另外，规则项的使用还可以约束我们的模型的特性。这样就可

以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、

平滑等等。要知道，有时候人的先验是非常重要的。前人的经验会让你少走很多弯路，这就是为什么我们平时学习最

好找个大牛带带的原因。一句点拨可以为我们拨开眼前乌云，还我们一片晴空万里，醍醐灌顶。对机器学习也是一

样，如果被我们人稍微点拨一下，它肯定能更快的学习相应的任务。只是由于人和机器的交流目前还没有那么直接的

方法，目前这个媒介只能由规则项来担当了。

还有几种角度来看待规则化的。规则化符合奥卡姆剃刀(Occam'srazor)原理。这名字好霸气，razor！不过它的

思想很平易近人：在所有可能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。从贝叶斯

估计的角度来看，规则化项对应于模型的先验概率。民间还有个说法就是，规则化是结构风险最小化策略的实现，是

在经验风险上加一个正则化项(regularizer)或惩罚项(penaltyterm)。

一般来说，监督学习可以看做最小化下面的目标函数：

其中，第一项L(y

,f(x

;w))衡量我们的模型（分类或者回归）对第i个样本的预测值f(x

;w)和真实的标签y

之前的误

差。因为我们的模型是要拟合我们的训练样本的嘛，所以我们要求这一项最小，也就是要求我们的模型尽量的拟合我

们的训练数据。但正如上面说言，我们不仅要保证训练误差最小，我们更希望我们的模型测试误差小，所以我们需要

加上第二项，也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。

OK，到这里，如果你在机器学习浴血奋战多年，你会发现，哎哟哟，机器学习的大部分带参模型都和这个不但

形似，而且神似。是的，其实大部分无非就是变换这两项而已。对于第一项Loss函数，如果是Squareloss，那就是

最小二乘了；如果是HingeLoss，那就是著名的SVM了；如果是expLoss，那就是牛逼的Boosting了；如果是log

Loss，那就是LogisticRegression了；还有等等。不同的loss函数，具有不同的拟合特性，这个也得就具体问题具体

分析的。但这里，我们先不究loss函数的问题，我们把目光转向“规则项Ω(w)”。

规则化函数Ω(w)也有很多种选择，一般是模型复杂度的单调递增函数，模型越复杂，规则化值就越大。比如，规

则化项可以是模型参数向量的范数。然而，不同的选择对参数w的约束不同，取得的效果也不同，但我们在论文中常

见的都聚集在：零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。这么多范数，到底它们表达啥意

思？具有啥能力？什么时候才能用？什么时候需要用呢？不急不急，下面我们挑几个常见的娓娓道来。



一、L0范数与L1范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元

素都是0。这太直观了，太露骨了吧，换句话说，让参数W是稀疏的。OK，看到了“稀疏”二字，大家都应该从当下风

风火火的“压缩感知”和“稀疏编码”中醒悟过来，原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。但你又开始怀疑

了，是这样吗？看到的papers世界中，稀疏不是都通过L1范数来实现吗？脑海里是不是到处都是||W||

影子呀！几乎

是抬头不见低头见。没错，这就是这节的题目把L0和L1放在一起的原因，因为他们有着某种不寻常的关系。那我们

再来看看L1范数是什么？它为什么可以实现稀疏？为什么大家都用L1范数去实现稀疏，而不是L0范数呢？

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lassoregularization）。现在我们来分

析下这个价值一个亿的问题：为什么L1范数会使权值稀疏？有人可能会这样给你回答“它是L0范数的最优凸近似”。实

际上，还存在一个更美的回答：任何的规则化算子，如果他在W

=0的地方不可微，并且可以分解为一个“求和”的形

式，那么这个规则化算子就可以实现稀疏。这说是这么说，W的L1范数是绝对值，|w|在w=0处是不可微，但这还是不

够直观。这里因为我们需要和L2范数进行对比分析。所以关于L1范数的直观理解，请待会看看第二节。

对了，上面还有一个问题：既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难

优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光

和万千宠爱转于L1范数。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余8页未读，立即下载

评论收藏

内容反馈

林祈墨

粉丝: 31
资源: 326

机器学习中的范数规则化1

评论0

最新资源

机器学习中的范数规则化1

评论0

L1范数代码,l1范数和l2范数,matlab

机器学习中的范数规则化之各种范数1

机器学习中的范数规则化之L0、L1与L2范数

第一范数最小化matlab源代码

matlab用解线性规划的方法求L1范数最小化

L1范数最小化算法matlab代码(修改过可用C调用)

WNNM加权核范数最小化进行图像复原matlab代码

L1范数代码,l1范数和l2范数,matlab源码.zip

6-1_范数.范数课件ppt

L1范数最小化问题稀疏求解的快速算法.zip

BAT机器学习面试1000题系列

L1/2范数正则化模型修正方法在结构损伤识别中的应用

基于伽马范数最小化的图像去噪算法.docx

基于加权核范数最小化算法实现图像去噪附matlab代码

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化 范数_正则化范数

YALL1-v1.4.zip_L1最小化范数_l1范数最小化_内点法_压缩感知 yall_范数

l1_ls.rar_1范数_1范数最小化_最小1范数_稀疏表示_稀疏表示 L1

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

安全认证cisp教材全套

OpenVAS GVM 中文翻译补丁

2024最新：Hvv中常见的面试问题

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

全面的安全基线核查清单

最新资源

l1_ls.rar_L1正则化问题_l1 范数_二范数_最小化范数_正则化范数