证据近似-effectiveakka资源-CSDN文库

需积分: 47 114 浏览量 2021-07-11 22:18:16 上传评论收藏 11.59MB PDF 举报

3.5 证据近似在处理线性基函数模型的纯粹的贝叶斯⽅法中，我们会引⼊超参数α和β的先验分布，然后通过对超参数以及参数w求积分的⽅式做预测。但是，虽然我们可以解析地求出对w的积分或者求出对超参数的积分，但是对所有这些变量完整地求积分是没有解析解的。这⾥我们讨论⼀种近似⽅法。这种⽅法中，我们⾸先对参数w求积分，得到边缘似然函数（marginal likelihood function），然后通过最⼤化边缘似然函数，确定超参数的值。这个框架在统计学的⽂献中被称为经验贝叶斯（empirical Bayes）（Bernardo and Smith, 1994; Gelman et al., 2004），或者被称为第⼆类最⼤似然（type 2 maximum likelihood）（Berger, 1985），或者被称为推⼴的最⼤似然（generalized maximum likelihood）。在机器学习的⽂献中，这种⽅法也被称为证据近似（evidence approximation）（Gull, 1989; MacKay, 1992a）。如果我们引⼊α和β上的超先验分布，那么预测分布可以通过对w, α和β求积分的⽅法得到，即 p(t | t) = ∫∫∫ p(t | w, β)p(w | t, α, β)p(α, β | t) dw dα dβ (3.74) 其中p(t | w, β)由公式（3.8）给出，p(w | t, α, β)由公式（3.49），其中mN和SN分别由公式（3.53）和公式（3.54）定义。这⾥，为了让记号简洁，我们省略了对于输⼊变量x的依赖关系。如果后验分布p(α, β | t)在α̂和β̂附近有尖峰，那么预测分布可以通过对w积分的⽅式简单地得到，其中α和β被固定为α̂和β̂，即 p(t | t) ≃ p(t | t, α̂, β̂) = ∫ p(t | w, β̂)p(w | t, α̂, β̂) dw (3.75) 根据贝叶斯定理，α和β的后验分布为 p(α, β | t) ∝ p(t | α, β)p(α, β) (3.76) 如果先验分布相对⽐较平，那么在证据框架中，α̂和β̂可以通过最⼤化边缘似然函数p(t | α, β)来获得。我们接下来会计算线性基函数模型的边缘似然函数，然后找到它的最⼤值。这将使我们能够从训练数据本⾝确定这些超参数的值，⽽不需要交叉验证。回忆⼀下⽐值α β 类似于正则化参数。此外，值得注意的⼀点是，如果我们定义α和β上的共轭（Gamma）先验分布，那么对公式（3.74）中的这些超参数求积分可以解析地计算出来，得到w上的学⽣t分布（见第2.3.7节）。虽然得到的w上的积分不再有解析解，但是我们可以认为对这个积分求近似会给证据框架提供了另⼀种实⽤的⽅法（Buntine and Weigend, 1991）。其中，可以使⽤拉普拉斯近似⽅法（见第4.4 节）对这个积分求近似。拉普拉斯近似⽅法的基础是以后验概率分布的众数为中⼼的局部⾼斯近似⽅法。然⽽，作为w的函数的被积函数的众数通常很不准确，因此拉普拉斯近似⽅法不能描述概率质量中的⼤部分信息。这就导致最终的结果要⽐最⼤化证据的⽅法给出的结果更差（MacKay, 1999）。回到证据框架中，我们注意到有两种⽅法可以⽤来最⼤化对数证据。我们可以解析地计算证据函数，然后令它的导数等于零，得到了对于α和β的重新估计⽅程（将在3.5.2节讨论）。另⼀种⽅法是，我们使⽤⼀种被称为期望最⼤化（EM）算法的⽅法，这个算法将在9.3.4节讨论，那⾥我们还会证明这两种⽅法会收敛到同⼀个解。 3.5.1 计算证据函数边缘似然函数p(t | α, β)是通过对权值参数w进⾏积分得到的，即 p(t | α, β) = ∫ p(t | w, β)p(w | α) dw (3.77) 121

资源推荐

资源评论