2074
Journal of Software 软件学报 Vol.30, No.7, July 2019
construct deep neural network, and on the other hand, it can provide statistical support of deep nets. This paper mainly summarizes the
related research of RBMs based probability graph model and their applications in image recognition. Firstly, this paper introduces the
basic concepts and training algorithms of RBMs. Secondly, this paper summarizes the applications of RBMs in deep learning; and then,
this paper discusses existing problems in research of neural nets and RBMs. Finally, this paper gives a summary and prospect of the
research on the RBMs.
Key words: restricted Boltzmann machine; neural net; probabilistic undirected graph; deep learning
1 引 言
在概率图中,节点表示变量,边表示变量的依赖关系.按节点的连接方式,概率图分为有向图和无向图两类,
有向图可以清晰地表示节点间的条件概率,适合知识的推理
[1]
.随着深度学习的兴起,深度置信网(deep belief
nets,简称 DBNs)是最早的结合了深度学习概念的混合图模型
[2]
.然而,解释消除(explain-away)现象很大程度上
影响了有向图的解释能力
[3]
,且有些问题天然地适合使用无向图进行建模.概率无向图又称为马尔可夫网,还可
称为马尔可夫随机场(Markov random fields,简称 MRFs),MRFs 的概率分布通过势函数 ϕ(v)表示,其中,v 是该无
向图最大子图中的节点集合.由此,MRFs 的概率分布可以表达为 P(s)=Z
–1
(),
ii i
i
wv
其中,Z 为归一化因子,也
被称为配分函数
.为了方便表述和计算,MRFs 的概率分布可以表示为指数族的形式:P(s)=Z
–1
exp
(),
ii i
i
wf v
其中,f(v
i
)=log(ϕ(v
i
)).由因子 f(v
i
)的不同表示形式可以得到不同的无向图模型
[47]
.玻尔兹曼机是一种特殊的
MRFs,其联合分布可以表示为 P(s)=Z
–1
e
–E(s)
,其中,E(s)称为能量函数,与 MRFs 中势的概念对应.从网络拓扑结
构上看,玻尔兹曼机可以分为指数族 RBM(exp-RBMs)
[8]
、半受限的玻尔兹曼机(SRBMs)
[9]
以及全连接的玻尔
兹曼机
,其中,传统的二值 RBMs 模型是 Exp-RBMs 模型的特例.以 RBMs 为基础,深度玻尔兹曼机(deep
Boltzmann machines,
简称 DBMs)和深度置信网(deep belief nets,简称 DBNs)等多层网络促进了深度学习的发
展
[1014]
.其中,DBNs 是一种混合的概率图模型,其顶部的两层是无向的关联记忆,其余层之间的权值为自上而
下的生成连接.DBMs 是一种无向图模型,其结构可以看作层次化的玻尔兹曼机,整个深度玻尔兹曼机通过一
个能量函数来表达
.
RBMs
、基于 RBMs 的拓展模型及其应用是本文综述的重点.从目标函数的角度来看,在基于极大似然
估计的
RBMs 中需要计算由配分函数产生的模型期望,而配分函数的计算需要对所有节点的状态求和,其计
算复杂度极高,因此,基于极大似然估计的精确计算是不可行的.在基于近似计算的训练方法中,大致可分为
采样算法和变分推断
(variational inference)两种
[15,16]
.采样算法的基础是马尔可夫链,其目标是极大化似然
函数(极小化 KL 散度),几种比较有效的采样方法为:持续的马尔可夫链(persistent Markov chain)
[17]
、对比散
度
(contrastive divergence,简称 CD)算法
[15]
、持续的对比散度(persistent contrastive divergence,简称 PCD)算
法
[18]
以及基于快速权值的 PCD(fast persistent contrastive divergence with,简称 FPCD)算法
[19]
等.为了促进马
尔可夫链收敛
,模拟退火和模拟回火算法被应用于采样中
[2023]
.当可见层单元的激活不再条件独立时,可以
使用混合的蒙特卡罗算法替代吉布斯采样.RBMs 另一种有效的训练算法是变分推断,在变分推断中,假设存
在一个近似分布
q,其目标是最小化 RBMs 联合概率分布和近似的后验分布 q 之间的 KL 散度,常用的变分
推断方法有平均场算法(mean-field method)等
[24]
.另一种思路是修改 RBMs 模型训练的目标函数,极大似然
估计等价于最小化模型分布和数据分布之间的
KL 散度,KL 散度是 f 散度的一种特殊形式,可以有效地缩小
两个分布之间存在的较大差异,但是当两个分布之间的差异较小时,KL 散度存在过度平滑的问题.因此,针对
RBMs 的目标函数的改进,一种思路是使用 Wasserstein 距离来替代 KL 散度
[25]
,另一种思路是在原有的似然
函数基础上引入对抗损失
[26]
.
传统的 RBMs 的节点状态是二值的,适合处理二值化的数据.对于实值的输入样本,如自然图像和语音,二值
RBMs 表现比较差.为了解决这个问题,在 RBMs 的基础上,学者们提出了多种适用于实值数据的 RBMs 模型,包
括高斯
-二值 RBMs(mRBMs)
[27,28]
、协方差 RBMs(cRBMs)
[29]
、期望-协方差 RBMs(mcRBMs)
[30]
、ReLu-RBMs
以及 spike-and-slab RBMs(ssRBMs)等
[3135]
.以 RBM 为基础,组合变分自动编码器(variational autoencoders,简称
评论0