线性模型推导资源-CSDN文库

需积分: 9 106 浏览量 2017-07-25 10:53:15 上传评论收藏 168KB PDF 举报

### 线性模型推导 #### 一、标准线性回归线性回归是一种用于预测连续数值型目标变量的方法，其基本假设是输入特征与输出之间存在线性关系。 ##### 1.1 均方误差 (RMSE) 对于一组训练样本 \(\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\}\)，其中 \(x_i\) 是特征向量，\(y_i\) 是对应的观测值，均方根误差（Root Mean Squared Error, RMSE）是评估模型预测准确性的常用指标之一。定义为： \[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - w^T x_i)^2} \] 其中，\(w\) 是模型参数向量，\(w^T x_i\) 表示对第 \(i\) 个样本的预测值。 ##### 1.2 均方误差向量化将上述公式改写为向量形式，便于后续操作： \[ RMSE = \sqrt{(\mathbf{Y} - \mathbf{Xw})^T (\mathbf{Y} - \mathbf{Xw})} \] 这里，\(\mathbf{Y}\) 是一个包含所有观测值的列向量，\(\mathbf{X}\) 是一个由所有特征向量组成的矩阵。 ##### 1.3 最小化均方误差为了找到最优的模型参数 \(w\)，我们需要最小化均方误差。通过求导并设置导数等于零得到： \[ 2\mathbf{X}^T (\mathbf{Y} - \mathbf{Xw}) = 0 \] 从而得到参数 \(w\) 的闭式解： \[ w = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \] 需要注意的是，并非所有的 \(\mathbf{X}^T \mathbf{X}\) 都是满秩矩阵。如果特征数量大于样本数量，则矩阵 \(\mathbf{X}^T \mathbf{X}\) 可能不是满秩矩阵，这会导致无法求解。 ##### 1.4 优缺点 - **优点**：简单直观，易于理解和实现。 - **缺点**：无法很好地处理非线性数据；当特征数远大于样本数时，模型可能无法得到唯一解。 #### 二、Ridge回归 Ridge回归是一种线性回归模型的变种，它通过在损失函数中加入一个正则项来解决过拟合问题。 ##### 2.1 罚函数 & 正则项 Ridge回归的损失函数包括原始的均方误差和一个正则项： \[ RMSE = \sqrt{(\mathbf{Y} - \mathbf{Xw})^T (\mathbf{Y} - \mathbf{Xw}) + \lambda ||w||_2^2} \] 这里的 \(||w||_2^2\) 表示 \(w\) 的 L2 范数平方，\(\lambda > 0\) 是正则化强度。 ##### 2.2 最小化均方误差同样地，我们求导数并设置导数等于零，得到： \[ 2\mathbf{X}^T (\mathbf{Y} - \mathbf{Xw}) + 2\lambda w = 0 \] 从而得到参数 \(w\) 的闭式解： \[ w = (\mathbf{X}^T \mathbf{X} + \lambda I)^{-1} \mathbf{X}^T \mathbf{Y} \] 这里 \(I\) 表示单位矩阵。正则化项使得即使 \(\mathbf{X}^T \mathbf{X}\) 不是满秩矩阵也能求解。 ##### 2.3 优缺点 - **优点**：通过正则化项有效解决了模型过拟合问题。 - **缺点**：虽然可以避免过拟合，但是可能会导致欠拟合现象。 #### 三、Lasso回归 Lasso回归是另一种线性回归模型变种，通过在损失函数中加入 L1 范数作为正则项来实现稀疏性。 ##### 3.1 罚函数 & 正则项 Lasso回归的损失函数为： \[ RMSE = \sqrt{(\mathbf{Y} - \mathbf{Xw})^T (\mathbf{Y} - \mathbf{Xw}) + \lambda ||w||_1} \] 这里的 \(||w||_1\) 表示 \(w\) 的 L1 范数，即各元素绝对值之和。 ##### 3.2 逐步向前回归算法由于 L1 正则项的存在，使得 Lasso 回归的损失函数非凸，无法直接通过解析法求解。通常采用逐步向前回归算法来逼近最优解。 - **数据标准化**：将特征标准化为均值为0，方差为1的形式。 - **迭代**：逐个调整每个特征对应的权重，直到达到收敛条件。 ##### 3.3 优缺点 - **优点**：能够实现特征选择，自动剔除不重要的特征。 - **缺点**：计算复杂度较高，特别是在高维数据集上。 #### 四、Logistic回归 Logistic回归用于分类任务，特别是二分类问题。它通过对线性回归的输出应用 sigmoid 函数，将线性预测转换为概率预测。 ##### 4.1 Sigmoid函数 Sigmoid 函数定义为： \[ f(z) = \frac{1}{1 + e^{-z}} \] 这里的 \(z\) 通常是线性回归的输出。 ##### 4.2 极大似然估计 Logistic回归的目标是最大化数据的对数似然函数，通常采用梯度下降等优化算法来求解。 #### 五、回归结果性能度量常用的性能度量指标有： - **皮尔逊相关系数**：衡量两个变量之间的线性相关程度。 - **均方误差 (MSE)**：平均预测值与实际值之间的平方差。 #### 六、L1范数与L2范数 L1范数和L2范数的区别主要体现在惩罚项的不同： - **L2范数**：更倾向于让模型参数均匀地接近0，但不会强制某些参数精确为0。 - **L1范数**：鼓励部分参数为0，从而实现特征选择。线性回归、Ridge回归以及Lasso回归各有特点，在不同场景下有着广泛的应用。理解这些模型的基本原理及其优缺点，有助于我们在实际问题中做出合理的选择。

资源推荐

资源评论