Deep Variational information bottleneck

所需积分/C币:9 2018-12-09 17:33:58 617KB PDF

论文“Deep Variational information bottleneck”阅读笔记
q6(21x)log(x1-) )log N(z; u, 02)da E2~N(2)ogN(2,a2) log( e log2丌-=loga log2丌-(loga2+1) 所以: ∑[1+log() 其中,u与是关于x与参数φ的函数,所以链式求导法则,可求得对编码层参数φp的导数。进一步也就可 以通过BP算法对参数让行更新。 o变分下界第二项求导 eg(zaz) llog po(az z)l 其中 aa)=Nua, ),o(a, ) I) (21)=Nu(2,0),2(z,0) 对于第二项的求导相对较为麻烦,通常求复杂积分期望问题采用的MC算法,由于不可微,导致无法求导 或者出现较大偏差,所以不可用。为此,论文引入最厉害的" reparameteriation trick",实现参数变 化,使得求导变得可微,具体参数变化的目的可参照博客htps:// olog csdn.net/ hjimce/article/details 57082788,这也是我的要参考文献之一。 这里,我直接推导VAE中L2参数变换: 因为: z N qo(zz)=N(u, 02) 进行参数变化,上面的分布函数等价于: 2=+e,~N(0,1) 由于u,o是关于自变量x的复合函数的输出,所以z~qe(zx)也就等价于: z=90(e,x),E~N(0,1) 所以对于任意的随机变量z,其函数f(2)的期望就等于: (l()-B~NO)f(9(s,)1、 ∑f90(c,x) 对」L2项 I2=E2(e0)g q(2 可以做如下等价变换: I2=0(og(22)≈r 1S19(a|2(3),公9/,c(0),60)~N(,1) 到此,对于变分下届的推导变形完全结束,得到的新的变分下界可微可导可BP。最后,批量梯度下降算 法SGVB如下: Algorithm 1 Minibatch version of the Auto-Encoding VB(AEVB) algorithm. Either of the two SG VB estimators in section 2.3 can be used. We use settings 21= 100 and l l in experiments. e,φ← Initialize parameters repea X Random minibatch of M datapoints (drawn from full dataset) ∈← Random samples from noise distribution p(e g+VedC(0, x, E)(Gradients of minib atch estimator( 8)) 6, o e Update parameters using gradients g(e.g SGD or Adagrad [DHSIo]) until convergence of parameters(0, return 0. g 整个VAE框架大致如下 =f(2.X Decoder 人C4).X)、X川N., Decoder L SAmple: from NO. 1 x}>(米 Encoder sample( from A(0.1) Figure 6: Left: a training-time conditional variational autoencoder imple mented as a feedforward neural network, following the same notation as Figure 4. Right: the same model at test time, when we want to sample from P(YX) 最后,代码实现( porch): Basic VAE Example Information bottleneck 前面的内容主要对变分推断以及VAE相关知识进行简单的总结与叵顾。接下来说一下信息瓶颈( information Bottleneck)。信息瓶颈的概念最早出现并在理论神经科学中应用。在机器学习中关于信息论的内容基本是用 entropy, cross-entropy, KL divergence, mutual information之类的彬念来定义损失函数或者止则项,这样应用 信息论只是粗略地利用这些概念的物坦直觉,而并未触及信息论的本质。而 Tishby将 information bottleneck与机 器学习相结合,他的主要观点是: Learning theory其实是信息论中的 rate-distortion theory. 在介绍 Rate-distortion Theory之前,首先说明一个概念, Mutual information(互信息),下面是wki上的定义: In probability theoryand information theory, the mutual information(MI)of two random variables is a measure of the mutual dependence between the two variables. More specifically, it quantifies the amount of information (in units such as shannons, commonly called bits)obtained about one random variable through observing the other random variable. The concept of mutual information is intricately linked to that of entropy of a random variable, a fundamental notion in information theory that quantifies the expected amount of information" held in a random variable Not limited to real-valued random variables like the correlation coefficient, MI is more general and determines how similar the joint distribution p(a, y) is to the products of factored marginal distribution p(a). p(y). MI is the expected value of the pointwise mutual information(PMI) 大概的意患就是,X与Y之间的M表小通过观察X能够获得关于Y的信息的量化表示,符号表小为I(X;Y)另一种 理解方式是知道一个变量之后,一个变量不确定性的减少量。M越大,不确定性越小。M越小则不确定性越 大。当X与Y独立时,I(X;Y)等于0.有了 Mutual information概念后,就可以引入 Rate-distortion Theory了。 Rate-distortion Theory是 Shannon提岀的有损压缩的基本理论。大致的意思是说在压缩信息源的时候,一方面我 们需要用尽可能短的比特数表达信源,另一方面我们需要在信息重建时达到尽量小的 distortion。这两个目标是相 互矛盾的。 Rate distortion theory告诉我们,这个问题的数学本质是解一个优化问题:最小化信源x与重建信号Y 之间的 mutual information(x;Y)(对应于比特数), ubject to a distortion constraint。这个问题可以用 agrange multiplier来 formulate,再用 alternating minimization的方法来做优化就可以导出经典的 Blahut- Arimoto Algorithm.(这个算法跟 K-means和 EM clustering of Gaussian Mixture很接近,也可以理解为它们的 种泛化。) 终于,可以说到 information bottleneck了。 information bottleneck是 Rate-distortion Theory的一个应用或特 例。和之前一样,我们希望将X尽可能的压缩到T,同时满足两个要求:第一,尽可能压缩掉样例Ⅹ中跟学习目标 Y(比如要顶测的 class abel)不相关的信息,第二是尽量减小用T构建目标Y的 distortion。压缩程度用Ⅹ与T的 Ml来表示,即I(X;T)而 distortion用负的Y与T的M表示,即I(Y;T).把这两个目标一个做优化目标,一个做正 则约束,再用 Lagrange multiplier,就构造出了(X;T)βY;T这样的最小化优化问题,同样可以导出一个类似于 Blahut-Arimoto Algorithm的迭代算法。直观上理解,就是存在一个 tradeoff,第二项为了找到X中与Y中最相关的 信息;而第一项是为了让这个相关信息越少越好。所以最终得到的结果就是,找到X中与Y最相关的信息。 在此基础上, Tishby认为I(Y;T)可以理解为一种机器学习的 performance metric,而(XT可以理解为 regularizer 负责控制模型的复杂度 以上,大概就是 Information bottleneck的内容。。。 第二部分 Deep vib 千呼万唤始出来。。。终于到了我们的DeepⅦb,深度变分信息瓶颈。有了前面的AE, Variablal Inference以及 nformation bottleneck的基础, Deep vib理解起来就没有难度了。 在 Information bottleneck中,假设我们将输入数搪X编码为Z,通常情况下,将这个过程定义为带参数的 model( encoder),形式化表示为p(x|x:的)在有监督学习任务中,我们希望最大化编码信息z与abeY之间的 MⅠ(互信息),这样就可以利用编码信息Z来完成分类任务。所以目标函数如下 P(x,3|6) (Z,Y; 0)=/ dx dy p(3, yl0)log p(=)p(yle) 但是根据Rate- distortion Theory,还需要一个正则项来限制复杂性。论文中用编码信息Z与源数据X之间的M来 作为正则项。从而,最终的优化(最大化)目标为: RB(0)=I(z,Y;0)-BI(Z,x;0) 其实这个优化目标就是前面所说的 Information bottleneck的直接使用。只不过与 nformation bottleneck原文中 的正则项与损失函数进行了互换。所以,这不是这个论文中的重点 本文的重点或者创新点在」引入了变分近似法,同时,变分近似法的使用使得我们可以使用神经內络来确定参数, 以及VAE中的 reparameterization的tCk也可以使用。 反观上面的优化日标,由于p(y|2)与p(Z)不可计算,所以引入了q(yz)与r(Z)来进行变分近似。从而得到最终的优化 日标为原优化日标的变分下界。以下为具体的推导: 对于第一项,由于: KLP(Y2),q(y2)≥0 so,dy p(gla)log p(g[2)2 dy p(glz)log g(y(z) 因此,可得: (2,Y)2/adap(022q(yl2) ply) dydzp(y, a)log q(3e)-/ dy p(g)log p(y) dydz p(y, z)log q(y z)+I(y 注意到HY)与我们的优化目标无关,所以忽略不计。 进一步,由 Mor koy chain(Y-X-z),以及边缘概率密度公式,可得: 7(Z, Y)2/ d.xdydz p(c)p(y/la)p(2)z)log a(g(x) 到此为止,对于第一项的变分近似,我们只需要联合数据分布的样本,以及来自可处理的变分近似qyz)的随机编 码器的样本。 接着第二项,同样的方法,使用r(Z)来变分近似p(Z) I(z, x)s d xdydz p(z p(31z]p(= og p(z]ac 结合两项可得新的变分下界为 I(Z, Y)-BI(Z,x)> dxdydx p(ex)p(y z)p(z ac)log q(y z) p(cL B/ dacdydz p(ap(gla)p(zla)log r(2) 经验估计 ∑dzp(2a)log)-8(2an) p(zl N 7= 最后: IB- 2Ee-pe[-log q(onlf(an, e)]+BKL[P(Zl=n 0, r(Z))1 以上,就是 Deep VIB的内容,最后贴一点代码 torch tensorflow Reference. [1]https://blog.csdnnet/hjimce/article/details/57082788 [2]如何评价Tishby的打开深度学习黑箱的Informationbottleneck珥论?-月光宝盒娱乐频道的回答知乎http S://www.zhihu.com/question/65697409/answer/294041505 [3]http://shaofanlai.com/post/67

...展开详情
img
Aiqz

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐