2
深度学习: 方法及应用
1 1 深度学习的定义与背景
2006 年ꎬ 深度结构学习 (经常被称作深度学习或分层学习) 作为机器学
习研究的一个新的领域出现了
[20ꎬ163]
ꎮ 在过去的几年里ꎬ 由深度学习发展而来
的一些科学技术对信号和信息处理的各个方面都产生了深远的影响ꎬ 这种影响
不仅存在于传统领域ꎬ 也存在于诸如机器学习和人工智能等一些重要的新兴领
域中ꎻ 对于此类研究ꎬ 文献 [7ꎬ 20ꎬ 24ꎬ 77ꎬ 94ꎬ 161ꎬ 412] 进行了概述ꎬ
媒体报道 [6ꎬ 237] 也有所涉及ꎮ 近年来ꎬ 很多研讨会、 教程、 期刊专刊或
专题会议都对深度学习及其在信号和信息处理中的各种应用进行了专门的研讨
活动ꎬ 其中包括:
• 2008 年 NIPS ( Neural Information Processing Systemsꎬ 神经信息处理系
统) 深度学习研讨会 (2008 NIPS Deep Learning Workshop)ꎻ
• 2009 年 NIPS 关于 深度学习 的语音识 别及 相关 应用 的研讨 会 (2009
NIPS Workshop on Deep Learning for Speech Recognition and Related Applica ̄
tions)ꎻ
• 2009 年 国际机器学习大会 ( International Conference on Machine Learn ̄
ingꎬ ICML) 关于学习特征的研讨会 (2009 ICML Workshop on Learning Feature
Hierarchies)ꎻ
• 2011 年国际机器学习大会关于语音和视觉信息处理中学习架构、 表示
和最优化的研讨会 (2011 ICML Workshop on Learning Architecturesꎬ Representa ̄
tionsꎬ and Optimization for Speech and Visual Information Processing)ꎻ
• 2012 年 ICASSP (International Conference on Acousticsꎬ Speech and Signal
Processingꎬ 国际声学ꎬ 语音与信号处理会议) 关于在信号和信息处理中深度
学习应用的研讨会 (2012 ICASSP Tutorial on Deep Learning for Signal and Infor ̄
mation Processing)ꎻ
• 2012 年国际机器学习大会关于学习表示的研讨会 (2012 ICML Work ̄
shop on Representation Learning)ꎻ
• 2012 年 IEEE «音频、 语音和语言处理» (T ̄ ASLPꎬ 1 月) 会刊中有关
语音和 语言处理 中深度学习专栏 (2012 Special Section on Deep Learning for
Speech and Language Processing in IEEE Transactions on Audioꎬ Speechꎬ and Lan ̄
guage Processing (T ̄ ASLPꎬ January) )ꎻ
• 2010ꎬ 2011 和 2012 年 NIPS 关于深度学习和无监督特征学习的研讨会
(2010ꎬ 2011ꎬ and 2012 NIPS Workshops on Deep Learning and Unsupervised Fea ̄
ture Learning)ꎻ
1 引 言
3
• 2013 年 NIPS 关 于 深 度 学 习 和 输 出 表 示 学 习 的 研 讨 会 (2013 NIPS
Workshops on Deep Learning and on Output Representation Learning)ꎻ
• 2013 年 IEEE « 模式分析和机器智能» ( T ̄ PAMIꎬ 9 月) 的杂志中有
关学习深度架构的特刊 ( 2013 Special Issue on Learning Deep Architectures in
IEEE Transactions on Pattern Analysis and Machine Intelligence ( T ̄ PAMIꎬ
September ) ) ꎻ
• 2013 年 关 于 学 习 表 示 的 国 际 会 议 (2013 International Conference on
Learning Representations)ꎻ
• 2013 年国际机器学习大会关于表示学习面临的挑战研讨会 (2013 ICML
Workshop on Representation Learning Challenges)ꎻ
• 2013 年国际机器学习大会关于音频、 语音和语言处理中深度学习的研
讨会 (2013 ICML Workshop on Deep Learning for Audioꎬ Speechꎬ and Language
Processing) ꎻ
• 2013 年 ICASSP 关于 « 语音识别中的新型神经网络以及相关应用» 专
栏 (2013 ICASSP Special Session on New Types of Deep Neural Network Learning
for Speech Recognition and Related Applications)
本书的作者一直从事深度学习的研究ꎬ 也组织或参与过上述中的一些重要
会议以及特刊的编写工作ꎮ 要特别提出的是ꎬ 本书作者频频受邀在众多重要会
议上对深度学习进行专题报告ꎬ 而本书的部分内容也是基于这些报告内容整理
而成的ꎮ
在开始详细介绍深度学习的内容之前ꎬ 我们有必要先了解一些基本概念ꎬ
下面是一些与深度学习密切相关的概念和描述:
•定义 1: “机器学习是一类利用多个非线性信息处理层来完成监督或者
无监督的特征提取和转化ꎬ 以及模式分析和分类等任务的技术ꎮ”
•定义 2: “深度学习是机器学习的子领域ꎬ 它是一种通过多层表示来对
数据之间的复杂关系进行建模的算法ꎮ 高层的特征和概念取决于低层的特征和
概念ꎬ 这样的分层特征叫 做深层ꎬ 其中大多数模型都基于无 监督的学 习表
示ꎮ”ꎻ (2012 年 3 月维基百科对深度学习的定义ꎮ)
•定义 3: “ 深度学习是机器学习的子领域ꎬ 它是基于多层表示的学习ꎬ
每层对应一个特定的特征、 因素或概念ꎮ 高层概念取决于低层概念ꎬ 而且同一
低层的概念有助于确定多个高层概念ꎮ 深度学习是基于表示学习的众多机器学
习算法中的一员ꎮ 一个观测 对象 ( 比 如一张图 片) 可以 用很多种 方式表示
(如像素的一个向量)ꎬ 但是有的表示则可以使基于训练样本的学习任务变得
更容易 (如判定某张图像是否为人脸图像)ꎮ 这一研究领域试图解决一个问
题: 哪些因素 可 以 产 生 更 好 的 表 示ꎬ 以 及 对 于 这 些 表 示 应 该 如 何 学 习ꎮ”
4
深度学习: 方法及应用
(2013 年 2 月维基百科对深度学习的定义ꎮ)
•定义 4: “深度学习是机器学习的一系列算法ꎬ 它试图在多个层次中进
行学习ꎬ 每层对应于不同级别的抽象ꎮ 它一般使用人工神经网络ꎬ 学习到的统
计模型中的不同层对应于不同级别的概念ꎮ 高层概念取决于低层概念ꎬ 而且同
一低层的概念有助于确定多个高层概念ꎮ” (2013 年 10 月维基百科对深度学习
的最新定义ꎮ)
•定义 5: “深度学习是机器学习研究的一个新领域ꎬ 它的出现将机器学
习向人工智能这一目标进一步拉近ꎮ 深度学习是对多层表示和抽象的学习ꎬ 它
使一些包括如图像、 声音和文本的数据变得有意义ꎮ” (参看网址: https: / /
github. com / lisa ̄ lab / DeepLearningTutorials)
应该注意的是ꎬ 本书所讨论的深度学习是使用深度结构来对信号和信息进
行处理ꎬ 而不是对信号或信息的深度理解ꎬ 尽管在有的情况下这两个方面可能
会比较相似ꎮ 在教育心理学中ꎬ 是这样定义深度学习的: “深度学习是描述学
习的 一 种 方 法ꎬ 其 特 点 是: 主 动 参 与、 内 在 激 励 和 个 人 对 意 义 的 探 索ꎮ”
(http: / / www. blackwellreference. com / public / tocnode? id = g9781405161251 _
chunk_ g97814051612516_ ss1 ̄1) 我们应该注意将深度学习与教育心理学中的
这些被滥用的术语区别开来ꎮ
在上述多个不同的高层描述中有两个重要的共同点: (1) 都包含多层或
多阶非线性信息处理的模型ꎻ (2) 都使用了连续的更高、 更抽象层中的监督
或无监督学习特征表示的方法ꎮ 深度学习是包括神经网络、 人工智能、 图形化
建模、 最优化、 模式识别和信息处理的交叉领域ꎬ 它今天之所以如此受欢迎ꎬ
有三个重要 原因: 其一ꎬ 芯 片处 理性 能 的巨 大提 升 ( 比 如ꎬ 通用 图形 处理
器)ꎻ 其二ꎬ 用于训练的数据爆炸性增长ꎻ 其三ꎬ 近来ꎬ 机器学习和信号 / 信
息处理研究有了很大进展ꎬ 这些都使深度学习方法可以有效利用复杂的非线性
函数和非线性的复合函数来学习分布和分层的特征表示ꎬ 并且可以充分有效地
利用标注和非标注的数据ꎮ
近年来活跃在机器学习领域的研究机构包括众多高校ꎬ 比如多伦多大学、
纽约大学、 加拿大蒙特利尔大学、 斯坦福大学、 加州大学伯克利分校、 加州大
学、 伦敦大学学院、 密歇根大学、 麻省理工学院、 华盛顿大学ꎬ 还有一些企
业ꎬ 如微软研究院 ( 从 2009 年开始)、 谷歌 ( 大概从 2011 年开始)、 IBM 研
究院 (大概从 2011 年开始)、 百度 ( 从 2012 开始)、 Facebook ( 从 2013 年开
始)、 IDIAP 研究所、 瑞士人工智能研究所等ꎮ 参看网址: http: / / deeplearn ̄
ing. net / deep ̄learning ̄ research ̄ groups ̄ and ̄ labs /
这些研究机构将深度学习方法成功地用于计算机领域的众多应用中ꎬ 其中
包括: 计算机视觉、 语音识别、 语音搜索、 连续语音识别、 语言与图像的特征
1 引 言
5
编码、 语义话语分类、 自然语言理解、 手写识别、 音频处理、 信息检索、 机器
人学ꎬ 甚至有一个关于分子生物学的研究指出在深度学习方法的引领下发现了
新的药物
[237]
ꎮ
本书在最后一部分列出了一些参考文献ꎬ 如果需要了解这个领域的最新进
展ꎬ 推荐到以下网址获取:
• http: / / deeplearning. net / reading ̄ list/
• http: / / ufldl. stanford. edu / wiki / index. php / UFLDL_Recommended_
Readings
• http: / / www. cs. toronto. edu / ~ hinton /
• http: / / deeplearning. net / tutorial /
• http: / / ufldl. stanford. edu / wiki / index. php / UFLDL_Tutorial
1 2 本书的结构安排
本书后续章节按照以下结构进行编排:
在第 2 章中ꎬ 我们将简要对深度学习的历史加以回顾ꎬ 主要从以下三个问
题入手: 第一ꎬ 深度学习对语音识别技术有哪些影响ꎮ 第二ꎬ 这一重大科技革
命是如何开始的ꎮ 第三ꎬ 它是如何获得并保持如此强大动力的ꎮ
第 3 章讲述了深度学习中绝大多数研究所使用的三元分类法ꎮ 其中包括:
有监督、 无监督和混合深度学习网络ꎮ 在分类任务中ꎬ 混合深度学习网络利用
无监督学习 (或称为预训练) 来辅助下一个阶段的监督学习ꎮ 有监督和混合
深度神经网络通常都具有同一类型的深度网络体系或结构ꎬ 但是无监督深度网
络的结构却往往不同ꎮ
第 4 ~ 6 章分别集中介绍了深度结构的三种主流类型ꎬ 这三种类型都来源
于第 3 章中所提到的三元分类法ꎮ 在第 4 章中ꎬ 深度自编码器作为无监督深度
学习网络的经典方法ꎬ 我们将详细对其进行介绍并加以讨论ꎮ 虽然其中巧妙地
利用到了后向传播这样的监督学习算法ꎬ 但是在学习的过程中并没有使用类别
标签信息ꎬ 而是将输入信号本身作为 “监督” 信号ꎮ
第 5 章作为混合深度网络分类的主要实例讲解部分ꎬ 详细介绍了这种用无
监督生成式的预训练方法来提高监督训练效率的深度学习网络ꎮ 在训练数据有
限ꎬ 并且没有其他合适的正则化方法 ( 如 dropout) 可利用的情况下ꎬ 混合深
度学习网络是很有用的ꎮ 这种独特的预训练方法是以受限玻尔兹曼机和本章所
要学习的深度学习网络为基础的ꎬ 它开启了深度学习在语音识别和其他信息处
理任务中的早期应用ꎬ 具有很重要的历史意义ꎮ 除了回顾综述以外ꎬ 我们也讨
论了混合深度学习网络的后续发展和近期出现的一些不同观点ꎮ