深度学习在现代数学分析中的研究是一个新兴的领域,涉及深度神经网络在学习理论经典框架内未能解答的问题。这些关键问题包括但不限于以下几点:
1. 过参数化神经网络的杰出泛化能力:过参数化指的神经网络中参数数量远远超过训练样本的数量。这类网络在实际应用中展现出卓越的泛化能力,即便按照传统学习理论的直觉这应导致过拟合。因此,研究者们关注是什么内在因素赋予了过参数化模型这样的泛化能力。
2. 深度架构中深度的作用:深度网络中层数的增加对于网络性能的影响,以及理论上深度架构如何提高表达能力的详细探讨。其中包括深度与网络学习复杂函数能力之间的关系。
3. 超越维度的诅咒:在传统机器学习中,随着特征维度的增加,学习问题变得更为复杂。然而深度学习似乎有效克服了这个维度的限制,研究者们试图理解其背后的数学原理。
4. 非凸问题的优化性能:深度神经网络通常是一个非凸优化问题,理论上很难找到全局最优解。然而,实践中通过梯度下降等方法却能获得意想不到的良好性能,探讨这种现象的内在机制是此领域研究的重点之一。
5. 学习到的特征是什么:深度网络内部所学到的特征,以及这些特征如何帮助网络完成任务也是该领域研究的一个重要问题。
6. 深层架构在物理问题中的卓越性能:为什么深层架构在诸如图像、语音识别等物理问题上表现得如此出色,其背后的数学原理是什么。
7. 架构细微之处对学习任务的影响:不同架构的细节如何影响学习任务,这包括网络连接方式、激活函数的选择、以及正则化方法等因素对学习性能的细致影响。
上述问题的研究促使了对深度学习数学理论的深入探索,论文中提出了现代方法对此类问题的局部解答,并对选定的方法进行了更深入的描述。部分研究方向如下:
1. 核方法与高斯过程:探讨了核方法在深度学习中的应用,以及如何将深度网络看作是高斯过程的一种近似,从而利用核函数的性质来分析网络的泛化性能。
2. 基于范数的界限与边缘理论:研究了如何使用神经网络的范数界限来推导网络的泛化性能,并探讨了所谓的边缘理论在深度学习中的角色。
3. 优化与隐式正则化:分析了深度学习优化过程中隐式正则化的存在,以及其如何影响模型参数的学习。
4. 经典理论的限制与双重下降:研究了为何经典的学习理论并不能完全解释深度学习中的现象,并探讨了双重下降等非经典现象。
5. 深度在网络表达能力中的角色:研究了深度对于网络逼近能力,尤其是逼近径向函数的能力的影响,并探讨了深度ReLU网络和替代的表达性概念。
6. 深度神经网络克服维度的诅咒:探讨了流形假设、随机采样和偏微分方程(PDE)假设在深度学习中如何帮助克服维度的诅咒。
7. 深度神经网络的优化:研究了损失景观分析和随机梯度下降(SGD)的懒惰训练以及其收敛性的可证明性。
8. 特殊架构的切实影响:探讨了诸如卷积神经网络(CNN)这样的特定架构对某些任务(如图像处理)的影响。
该综述论文将作为《深度学习理论》一书的章节出现,它不仅总结了目前深度学习数学分析领域的成果,也指出了未来可能的研究方向。论文的作者来自维也纳大学的数学系、数据科学研究中心和慕尼黑路德维希马克西米利安大学的数学系以及特罗姆瑟大学的物理学与技术系,体现了多学科交叉的研究特色。