贝叶斯分层模型中的推理通过在概率模型中利用贝叶斯定理,计算给定数据条件下模
型的条件概率,进行模型的估计及对数据的预测,依赖于推理算法估计后验概率。然而,
后验概率因计算开销巨大难以取得闭合解,在实践中往往需要近似推理,主要有两种方
法:马尔科夫链蒙特卡罗(MCMC,Markov chain Monte Carlo)和变分推理(VI,
variational inference)。多年来,MCMC 是近似推理的主流范式,能够实现对目标分布较
为准确的近似,但运算缓慢。VI 将高维度推理问题转化为优化问题,实现了更快速的近似
计算,凭借其更快的收敛速度及对海量数据的强适应性,受到众多研究者的青睐。
1. 研究现状
近年来 VI 领域的研究集中于以下 5 个方面。
1.1 提升计算效率
随机变分推理
[1]
(SVI,Stochastic Variational Inference)及其变体
[2]
通过引入随机优化
方法,分别在大型数据集和稀疏情况中取得良好表现。进一步地,Ranganath 等人
[3]
开发了
随机推理中的自适应学习率的设置方法;坍缩变分推理
[4-6]
(CVI,Collapsed Variational
Inference)通过积分消除部分变量,简化了计算。
1.2 重构变量间的依赖关系
文献[7-9]使用不同的方式建立了保持一定依赖关系的结构,可以描述更丰富的变分族
并提升 VI 的准确性,但会引起计算量的显著增加。
1.3 通用变分推理框架与自动化推理
文献[10]将原本的变分分布映射为更简单的分布并从中采样;文献[11]对变分目标中
难以处理的对象应用蒙特卡罗梯度;文献[12]通过引入随机优化、蒙特卡罗估计和方差减
少技术实现了快速收敛。其他具备“黑盒”性的推理模型还包括层次变分模型(HVM,
Hierarchical Variational Models)
[8]
和变分高斯过程(VGP,Variational Gaussian Process)
[13]
等。
1.4 提高算法鲁棒性
文献[14]通过约束变分参数的后续迭代,克服了对初始化的敏感性,且能达到更好的
局部最优;文献[15]通过改造近似计算的目标,在统计和计算特性中取得了较好的平衡。
1.5 概率编程系统
Stan
[16]
、PyMC3
[17]
和 Edward
[18]
是 3 款具有代表性且比较完备的概率编程系统,具有直
观、可读、功能强大的语法,在不同程度上支持 VI 和 MCMC 采样。