多元线性回归模型
多元线性回归模型是统计学中的一种常用模型,用于描述多个解释变量对被解释变量的影响关系。在本文中,我们将详细介绍多元线性回归模型的基本概念、假定条件、最小二乘法、多元可决系数与调整后的多元可决系数等知识点。
一、多元线性回归模型的基本概念
在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。但是在现实生活中,一个被解释变量往往受到多个因素的影响。例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。
多元线性回归模型可以表示为:
ytt = β0 + β1x1 + β2x2 + … + βkxk + u
其中,ytt 是被解释变量,x1、x2、…、xk 是解释变量,β0 是截距项,β1、β2、…、βk 是回归系数,u 是随机误差项。
二、假定条件
多元线性回归模型的假定条件与一元线性回归模型的基本假定相似,为保证得到最优估计量,多元线性回归模型应满足以下假定条件:
1. 随机误差项u 满足均值为零,其方差σ^2 相同且为有限值。
2. 随机误差项之间相互独立,无自相关。
3. 解释变量x1、x2、…、xk 之间线性无关,即解释变量的样本观测值矩阵式满秩矩阵,否则称解释变量之间存在多重共线性。
4. 解释变量x1、x2、…、xk 是确定性变量,与误差项彼此之间相互独立。
5. 解释变量是非随机变量,且当QXX^T = I 时,Q 是一个有限值的非奇异矩阵。
6. 随机误差项服从正态分布。
7. 回归模型是正确设计的。
三、最小二乘法
根据最小二乘法的原则,总体回归模型可以推导为样本回归模型,即:
ytt = β0 + β1x1 + β2x2 + … + βkxk + u
其中,ytt 是被解释变量,x1、x2、…、xk 是解释变量,β0 是截距项,β1、β2、…、βk 是回归系数,u 是随机误差项。
四、多元可决系数与调整后的多元可决系数
类似于一元线性回归模型的情形,我们对估计的回归方程关于样本观测值的拟合优度进行检验,而检验的统计量是可决系数。因是多元回归,样本可决系数R^2 就称为多元可决系数。
对于多元线性回归模型的情形,一元线性回归模型的总离差平方和的分解公式依然成立,即:
TSS = ESS + RSS
其中,TSS 的自由度为n-1,n 表示样本容量,ESS 的自由度为k,k 表示自变量的个数,RSS 的自由度为n-k-1 。
在模型应用中发现,如果在模型中增加一个解释变量,R^2 往往会增大。这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。 这就给人一个错觉:要使模型拟合得好,只要增加解释变量就可以了。但是,现实情况往往是,由增加解释变量个数引起的R^2 的增大与拟合好坏无关,因此,在多元线性回归模型之间比较拟合优度,R^2 就不是一个合适的指标,必须加以调整。
定义调整的多元可决系数如下:
R^2_adj = 1 - (RSS / TSS) * (n-1) / (n-k-1)
其中,R^2_adj 是调整后的多元可决系数,n 是样本容量,k 是自变量的个数,RSS 是残差平方和,TSS 是总离差平方和。