Hinton在NIPS2017上关于capsules的演讲PPT：DoestheBraindoInverseGraphics？

需积分: 10 190 浏览量 2018-03-26 21:42:12 上传评论收藏 2.39MB PDF 举报

在NIPS 2017会议上，Geoffrey Hinton发表了一篇题为“Does the Brain do Inverse Graphics？”的演讲，该演讲主要探讨了人类视觉和capsules这两个核心主题。本文将从以下几个方面详细解释这一主题中所涉及的知识点。标题中的“capsules”是指在神经网络结构中的一个概念，也被称为“动态胶囊”。胶囊网络（capsule network）是Hinton教授团队提出的一种新的深度学习模型。与传统的卷积神经网络（CNN）相比，胶囊网络在处理图像识别和理解方面有其独特之处，特别是在识别物体的多样性和空间关系方面表现出色。胶囊网络利用了“向量”来表示物体及其属性，包括位置、大小和姿态等，并通过动态路由算法来处理这些向量的聚合和变换。在演讲中，Hinton还涉及到了人类视觉的逆向图形学问题，即大脑是否能够根据观察到的图像来推断出其背后的三维结构，这一过程在心理学中被称为“视觉理解”或“视觉意识”。Hinton认为，人类视觉系统使用一种高效的层级表示方法，能够从二维图像中提取出三维世界的信息，这与机器学习中的逆图形学技术有相似之处。逆图形学在计算机视觉领域是指从图像中提取出场景的三维表示的过程。 Hinton还提到了在1985年时如何学习很多层的特征。那时的研究方法是通过比较输出结果与正确答案，获取误差信号，然后将误差信号反向传播以获取用于学习输出层和隐藏层的输入向量的导数。这里所提到的技术是反向传播算法（backpropagation），这是深度学习中实现多层网络训练的关键技术。此外，演讲内容中还提到了“标签贫乏问题”，即难以获得大量准确标记的示例数据，且每个标签只包含少量信息来限制输入到输出的映射。解决这个问题的两种方法是：一是努力获取大量标签，二是通过构建图像的生成模型从无标记数据中学习特征。这一部分反映了数据驱动的深度学习模型的一个关键问题，即依赖大量有标记的数据进行训练，而无标记数据的利用效率不高。演讲中还提及了神经网络用于识别工作的表现良好的表示方法，特别是卷积神经网络（CNN）。CNN使用具有局部感受野和共享权重的多层特征检测器，特征提取层之间穿插着子采样层，这些子采样层通过丢弃位置信息以实现一定程度的平移不变性。在演讲的这部分，Hinton强调了通过深度学习模型如何能够有效地从图像中提取有用的信息，以及如何通过子采样层来提升模型的泛化能力。 Hinton的演讲中还提到了“重复特征方法”，其强调使用许多相同特征检测器的不同副本，并且每个副本的位置略有差异。这种方法通过复制减少了需要学习的自由参数数量，同时允许对每个图像的不同区域使用多种不同的表示方法。在这一部分中，Hinton还探讨了如何通过结合多个重复特征的输出，以获得每一层的平移不变性，并减少到下一层特征提取的输入数量，从而允许存在更多不同的特征池。在识别图像中的物体方面，Hinton提到了ImageNet基准测试，并讨论了Alex Krizhevsky近期的工作。通过该基准测试，Hinton强调了神经网络在处理大规模数据集时相较于其他方法更为容易。他指出，识别一千种不同类型的物体大约只需要一百万张训练图像，这大约是一周的视觉经验。在总结演讲的内容中，Hinton教授不仅展示了深度学习技术在图像识别和理解方面的最新进展，而且也提出了对于未来人工智能研究方向的重要思考。从技术角度，Hinton教授的演讲涵盖了深度学习、神经网络结构、特征学习、反向传播算法、无标记数据利用、CNN结构和工作原理、图像识别技术的前沿进展等多个领域的知识点。 Hinton在NIPS2017上关于“Does the Brain do Inverse Graphics？”的演讲内容丰富，不仅深入探讨了人类视觉的工作机制，而且结合自己提出的capsules理念，对当前深度学习领域中图像识别技术的发展进行了深刻的反思和展望。这次演讲对于理解深度学习的最新发展、神经网络在图像处理领域的应用，以及如何从生物学角度启发人工智能具有重要的意义。

资源推荐

资源评论