深度学习的局限性和未来资源-CSDN文库

170 浏览量 2021-01-27 15:27:51 上传评论收藏 439KB PDF 举报

资源详情

资源评论

资源推荐

深度学习的局限性和未来深度学习的局限性和未来

深度学习最令人惊讶之处就在于它十分简单。十年前，没有人指望由梯度下降方法训练的简单参数模型就可以在机器感知问题

上获得惊人的结果。现在，事实证明，你只需要一个有足够多参数的模型，并且在足够大的数据集上使用梯度下降进行训练。

深度学习的几何学视角

深度学习最令人惊讶之处就在于它十分简单。十年前，没有人指望由梯度下降方法训练的简单参数模型就可以在机器感知问题

上获得惊人的结果。现在，事实证明，你只需要一个有足够多参数的模型，并且在足够大的数据集上使用梯度下降进行训练。

正如 Feynman 曾经描述宇宙那样，「它并不复杂，只是很多而已」。

在深度学习中，一切都是一个向量，即一切都是几何空间中的一个点。模型输入(可以是文本，图像等)和目标首先被「矢量

化」，即变成一些初始输入矢量空间和目标矢量空间。深度学习模型中的每一层对通过它的数据进行简单的几何变换。同时，

模型的层次链形成一个非常复杂的几何变换，分解成一系列简单的几何变换。这种复杂的转换尝试将输入空间一次一个点得映

射到目标空间。这种转换是通过层的权重进行参数化的，权重根据模型当前执行的情况进行迭代更新。这种几何变换的一个关

键特征是它必须是可微分的，这是为了使我们能够通过梯度下降学习它的参数。直观地说，这意味着从输入到输出的几何变形

必须平滑且连续——这是一个重要的约束条件。

这种复杂的几何变换应用到输入数据的整个过程可以用三维的形式进行可视化，将其想象成一个人试图将揉成团的纸球恢复平

整：皱巴巴的纸球是模型开始时的输入数据的复本。人对纸球的每个操作相当于一层简单几何转换的操作。完整的抚平(纸球)

动作顺序是整个模型的复杂转换。深度学习模型是用于解开高维数据复杂流形的数学机器。

深度学习的神奇之处在于：将语义转化为矢量，转化为几何空间，然后逐渐学习将一个空间映射到另一个空间的复杂几何转

换。你需要的只是足够高维数的空间，以便捕捉原始数据中全部的关系范围。

深度学习的局限性

用这个简单策略实现的应用程序空间几乎是无限的。然而，现有的深度学习技术对于更多的应用程序完全无能为力——即使提

供了大量的人工注释数据。例如，你可以尝试收集成千上万甚至百万的关于软件产品特征的英文描述的数据集，由产品经理编

写，以及由工程师团队开发的相应的源代码来满足这些要求。即使有了这些数据，你也无法训练深入的学习模式去简单地阅读

产品说明并生成适当的代码库。这只是其中的一个例子。一般来说，无论你投入多少数据，深度学习模型都无法实现任何需要

推理的东西，如编程或科学方法的应用——长期规划和类似算法的数据操作。即使使用深度神经网络学习排序算法也是非常困

难的。

这是因为深度学习模型仅仅是将一个向量空间映射到另一个向量空间的简单连续几何变换链。它可以做的全部就是将一个数据

流形 X 映射到另一个流形 Y，假设存在从 X到 Y 的可学习连续变换的话，并且可以使用密集的 X：Y 采样作为训练数据。因

此，尽管深度学习模型可以被解释为一种程序，反过来说的话，大多数程序不能被表达为深度学习模型——对于大多数任务来

说，要么没有相应的实际大小的深度神经网络来解决任务，或者存在这样的神经网络，但它可能无法学习，即相应的几何变换

可能太复杂，或者可能没有合适的数据可用来学习它。

通过堆叠更多层并使用更多训练数据来扩展当前的深度学习技术，只能在表面上缓解一些问题。它不能解决深度学习模型在他

们可以表示的内容种类非常有限的基本问题，并且大多数被期望可学习的程序不能被表示为数据流形的连续几何变形。

拟人化机器学习模型的风险

当代人工智能的一个非常现实的风险是人们误解了深度学习模型的作用，并高估了他们的能力。人类思维的一个基本特征是我

们的「心智理论」，我们倾向于将意向，信仰和知识投射到我们身边的事物上。在我们的意识中，在岩石上画一个笑脸石头就

突然变「快乐」了。应用于深度学习，这意味着当我们能够「基本成功」的训练模型以生成用于描述图片的标题时，我们就会

相信该模型能够「理解」图片的内容以及「理解」它所生成的字幕。然后，当训练数据中出现的图像类别轻微偏离时，我们会

非常惊讶地发现模型开始生成完全荒谬的标题。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论0

内容反馈

weixin_38565631

粉丝: 2
资源: 913

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip