《神经网络的外推能力:从前馈网络到图神经网络》 这篇论文发表于ICLR 2021会议,研究了通过梯度下降法训练的神经网络如何进行外推,即它们在训练分布之外学习什么。过去的研究对神经网络的外推能力有着不一致的实证结果:在某些简单的任务中,前馈神经网络(也称为多层感知器,MLPs)的外推能力并不理想,然而结构化的图神经网络(GNNs)在更复杂的任务中却表现出一定的成功。 论文量化了一个观察结果,即ReLU MLPs在从原点出发的任何方向上都很快收敛到线性函数。这表明ReLU MLPs在大多数非线性函数的外推方面表现不佳。但是,当训练分布足够“多样”时,它们能够证明学习到一个线性目标函数。 论文提出一个假设来解释GNNs在算法任务外推上的成功与局限性。这一假设认为,GNNs在对新数据(如更大的图或边权重)进行算法任务外推的成功,依赖于在架构或特征中编码任务特定的非线性。理论分析基于过度参数化网络与神经切线核之间的联系。实证研究显示,这一理论在不同的训练设置下均成立。 人类在许多任务中具有出色的外推能力,例如能对任意大的数字进行算术运算。因此,人们自然会想知道神经网络是否也能做到这一点,能否对未见过的示例进行泛化。这篇论文的工作就是朝着这个方向迈进,试图理解神经网络的内在机制,特别是前馈网络和图神经网络在处理超出训练集范围的问题时的能力。 对于ReLU MLPs,其在训练过程中的线性化行为限制了其对非线性问题的外推能力。而GNNs的成功则可能源于其结构设计,允许在网络中编码特定任务的非线性特性,从而在处理复杂图结构和算法任务时展现更强的泛化能力。 论文通过理论分析和实验验证了这些观点,为理解神经网络的外推能力提供了新的视角,这对于进一步改进神经网络的泛化性能和设计更加适应复杂任务的网络架构具有重要意义。未来的研究可能会继续探索如何增强神经网络的外推能力,使其在面对未知数据时展现出更强的智能。
- 粉丝: 7
- 资源: 7
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助