很多人在做数据分析时会经常用到一元线性回归,这是描述两个变量间统计关系的最简单的
回归模型。但现实问题中,我们往往会碰到多个变量间的线性关系的问题,这时就要用到多
元线性回归,多元线性回归是一元回归的一种推广,其在实际应用中非常广泛,本文就用
python 代码来展示一下如何用多元线性回归来解决实际问题。
图 1. 多元回归模型中要用到的公式
如图 1 所示,我们假设随机变量 y 与一般变量 x1、x2、...、xp 之间线性回归模型为(1)式,
式中 y 为因变量,x1、x2、...、xp 是自变量,β1、β2、...、βp 是回归系数,β0 是回归
常数。对于一个实际问题,如果我们获得 n 组观测数据(xi1,xi2,...,xip;y)(i = 1,
2,...,n),则我们可以把这 n 组观测数据写成矩阵形式 y=Xβ+ε。
在求出了回归方程之后,我们往往还要对回归方程进行显著性检验。这里的显著性检验主要
包括三部分。第一个是 F 检验,也就是检验自变量 x1、x2、...、xp 从整体上对 y 是否有明显
的影响,主要用到(2)、(3)、(4)式,其中(2)和(3)式是一个式子,不过是用不
同符号表示;第二个是 t 检验,是对每个自变量进行显著性检验,就是看每个自变量是否对
y 有显著性影响,这和前面从整体上检验还是有区别的;第三个是拟合优度,也就是 R2,其
取值在 0 到 1 之间,越接近 1,表明回归拟合的效果越好,越接近于 0,则效果越差,但 R
只能直观反映拟合的效果,不能代替 F 检验作为严格的显著性检验。
上面是多元线性回归的一个简单介绍,其详细原理内容较多,有兴趣的读者可以去查阅一下
相关文献,这里不再赘述,只重点讲解如何用 python 进行分析。