(Xθ)=X
T
对上述求导等式整理后可得:X
T
Xθ=X
T
Y
两边同时左乘(XTX)−1 可得:θ=(X
T
X)
−1
X
T
Y
(2)正则项/惩罚项
在优化目标函数时,除了正常的损失函数外,为了防止过拟合,我们通
常会加入一些正则项。常见的正则项有 L0、L1 和 L2 正则。
L0 正则是向量的 0 范数,指向量中非零元素的个数。L0 正则化的值是
模型中非零参数的个数,L0 正则化可以实现模型参数的的稀疏化,然然 L0
正则化是个 NP 难问题,很难求解,一般使用 L1 正则实现参数的稀疏化。
L1 正则是向量的 1 范数,指向量各元数绝对值的和。L1 正则可以使参
数更多的等于 0,故可以实现参数的稀疏,也叫做 Lasso 回归。
L2 正则是向量的 2 范数,指向量的内积,是所有元素的平方和在求平
方根。L2 正则可以使参数都趋向于 0,故可以实现参数的平滑,也叫 Ridge
回归。简单来说:能让曲线不是尖尖的样子,变得平滑。
给损失函数加入正则项相当于加入了对参数的先验分布,因而能防止过