10、L1 和 L2 正则的区别,如何选择 L1 和 L2 正则
blog.csdn.NET/xbmatrix/article/details/61624196
他们都是可以防止过拟合,降低模型复杂度
L1 是在 loss function 后面加上 模型参数的 1 数(也就是|xi|)
L2 是在 loss function 后面加上 模型参数的 2 数(也就是 sigma(xi^2)),注意 L2 数的定义是
sqrt(sigma(xi^2)),在正则项上没有添加 sqrt 根号是为了更加容易优化
L1 会产生稀疏的特征
L2 会产生更多地特征但是都会接近于 0
L1 会趋向于产生少量的特征,而其他的特征都是 0,而 L2 会选择更多的特征,这些特征都
会接近于 0。L1 在特征选择时候非常有用,而 L2 就只是一种规则化而已。
L1 求解
最小角回归算法:LARS 算法
11、越小的参数说明模型越简单
过拟合的,拟合会经过曲面的每个点,也就是说在较小的区间里面可能会有较大的曲率,这
里的导数就是很大,线性模型里面的权值就是导数,所以越小的参数说明模型越简单。
12、为什么一些机器学习模型需要对数据进行归一化?
blog.csdn.net/xbmatrix/article/details/56695825
归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定围。
1)归一化后加快了梯度下降求最优解的速度。等高线变得显得圆滑,在梯度下降进行求解
时能较快的收敛。如果不做归一化,梯度下降过程容易走之字,很难收敛甚至不能收敛
2)把有量纲表达式变为无量纲表达式, 有可能提高精度。一些分类器需要计算样本之间的
距离(如欧氏距离),例如 KNN。如果一个特征值域围非常大,那么距离计算就主要取决于
这个特征,从而与实际情况相悖(比如这时实际情况是值域围小的特征更重要)
3) 逻辑回归等模型先验假设数据服从正态分布。
哪些机器学习算法不需要做归一化处理?
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件
概率,如决策树、rf。而像 adaboost、gbdt、xgboost、svm、lr、KNN、KMeans 之类的最优
化问题就需要归一化。
特征向量的归一化方法
线性函数转换,表达式如下:y=(x-MinValue)/(MaxValue-MinValue)
对数函数转换,表达式如下:y=log10 (x)
反余切函数转换 ,表达式如下:y=arctan(x)*2/PI
减去均值,乘以方差:y=(x-means)/ variance
标准化与归一化的区别
简单来说,标准化是依照特征矩阵的列处理数据,其通过求 z-score 的方法,将样本的特征
值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运
算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。规则为
评论0
最新资源