假设当观察到一个实值的输入变量 ,而想利用这些观测数据来预测实值变量 。数据由以一个带有噪声的由函数
生成。现假定给出一个训练集(包括 个 的观测值,记为 ,相应的观测值为
。)观测值 由 加上一个由其他分布产生的一个噪声得到,若噪声由正态分布得到,则其分
布如下所示:
以这种方式生成数据,可以捕捉到许多真实数据集的一些特性,他们具有某种基底规律性,我们所希望做的就是去学习
这些规律,不过单个数据又经常被噪声所扰动,这种噪声可能来自于本质上的随机过程,比如放射性,但更典型的是由
于存在着变异源,而这些变异源本身是不可观测的。
而回归的任务是利用这些训练集中的数据对新输入变量 预测输出 。首先考虑使用一种简单的曲线拟合方式——多项
式拟合:
多项式的系数以向量形式表达 : ,需要确定该拟合多项式的系数,可以通过最小化拟合函最小化拟合函
数数 和训练集中数据点之间的误差和训练集中数据点之间的误差 得到,则定义误差函数误差函数:
x t
sin(2πx) N x xx = (x , ⋯ , x )
1 N
T
tt =
(t , ⋯ , t )
1 N
T
t
n
sin(2πx)
x^ t
^
y(x, ww) = w +
0
w ⋅
1
x + w ⋅
2
x +
2
⋯ + w ⋅
M
x =
M
w ⋅
j=0
∑
M
j
x
j
ww = (w , w , ⋯ , w )
0 1 M
T
y(x, ww)
E(ww) = [y(x , ww) −
2
1
n=1
∑
N
n
t ]
n
2