深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.rar资源-CSDN文库

共2个文件

pdf：1个

txt：1个

深度学习

3星 · 超过75%的资源需积分: 12 2 浏览量 2017-11-21 10:07:20 上传评论 3 收藏 19.68MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.rar （2个子文件）

深度学习方法及应用——深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著

介绍.txt 8KB

深度学习方法及应用深度学习和语音识别领域专家、微软研究院邓力博士和俞栋博士原著.pdf 21.26MB

２　　　　

深度学习: 方法及应用

１􀆰 １　深度学习的定义与背景

２００６年ꎬ 深度结构学习 (经常被称作深度学习或分层学习) 作为机器学

习研究的一个新的领域出现了

[２０ꎬ１６３]

ꎮ 在过去的几年里ꎬ 由深度学习发展而来

的一些科学技术对信号和信息处理的各个方面都产生了深远的影响ꎬ 这种影响

不仅存在于传统领域ꎬ 也存在于诸如机器学习和人工智能等一些重要的新兴领

域中ꎻ 对于此类研究ꎬ 文献 [７ꎬ ２０ꎬ ２４ꎬ ７７ꎬ ９４ꎬ １６１ꎬ ４１２] 进行了概述ꎬ

媒体报道 [６ꎬ ２３７] 也有所涉及ꎮ 近年来ꎬ 很多研讨会、教程、期刊专刊或

专题会议都对深度学习及其在信号和信息处理中的各种应用进行了专门的研讨

活动ꎬ 其中包括:

• ２００８年ＮＩＰＳ ( ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓꎬ 神经信息处理系

统) 深度学习研讨会 (２００８ＮＩＰＳＤｅｅｐＬｅａｒｎｉｎｇＷｏｒｋｓｈｏｐ)ꎻ

• ２００９年ＮＩＰＳ关于深度学习的语音识别及相关应用的研讨会 (２００９

ＮＩＰＳＷｏｒｋｓｈｏｐｏｎＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＲｅｌａｔｅｄＡｐｐｌｉｃａ￣

ｔｉｏｎｓ)ꎻ

• ２００９年国际机器学习大会 ( ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎ￣

ｉｎｇꎬ ＩＣＭＬ) 关于学习特征的研讨会 (２００９ＩＣＭＬＷｏｒｋｓｈｏｐｏｎＬｅａｒｎｉｎｇＦｅａｔｕｒｅ

Ｈｉｅｒａｒｃｈｉｅｓ)ꎻ

• ２０１１年国际机器学习大会关于语音和视觉信息处理中学习架构、表示

和最优化的研讨会 (２０１１ＩＣＭＬＷｏｒｋｓｈｏｐｏｎＬｅａｒｎｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅｓꎬ Ｒｅｐｒｅｓｅｎｔａ￣

ｔｉｏｎｓꎬ ａｎｄＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＳｐｅｅｃｈａｎｄＶｉｓｕａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ)ꎻ

• ２０１２年ＩＣＡＳＳＰ (ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓꎬ ＳｐｅｅｃｈａｎｄＳｉｇｎａｌ

Ｐｒｏｃｅｓｓｉｎｇꎬ 国际声学ꎬ 语音与信号处理会议) 关于在信号和信息处理中深度

学习应用的研讨会 (２０１２ＩＣＡＳＳＰＴｕｔｏｒｉａｌｏｎＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＳｉｇｎａｌａｎｄＩｎｆｏｒ￣

ｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ)ꎻ

• ２０１２年国际机器学习大会关于学习表示的研讨会 (２０１２ＩＣＭＬＷｏｒｋ￣

ｓｈｏｐｏｎＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇ)ꎻ

• ２０１２年ＩＥＥＥ «音频、语音和语言处理» (Ｔ￣ＡＳＬＰꎬ １月) 会刊中有关

语音和语言处理中深度学习专栏 (２０１２ＳｐｅｃｉａｌＳｅｃｔｉｏｎｏｎＤｅｅｐＬｅａｒｎｉｎｇｆｏｒ

ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｉｎＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏꎬ Ｓｐｅｅｃｈꎬ ａｎｄＬａｎ￣

ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ (Ｔ￣ＡＳＬＰꎬ Ｊａｎｕａｒｙ) )ꎻ

• ２０１０ꎬ ２０１１和２０１２年ＮＩＰＳ关于深度学习和无监督特征学习的研讨会

(２０１０ꎬ ２０１１ꎬ ａｎｄ２０１２ＮＩＰＳＷｏｒｋｓｈｏｐｓｏｎＤｅｅｐＬｅａｒｎｉｎｇａｎｄＵｎｓｕｐｅｒｖｉｓｅｄＦｅａ￣

ｔｕｒｅＬｅａｒｎｉｎｇ)ꎻ

１　引　　言

３　　　　

• ２０１３年ＮＩＰＳ关于深度学习和输出表示学习的研讨会 (２０１３ＮＩＰＳ

ＷｏｒｋｓｈｏｐｓｏｎＤｅｅｐＬｅａｒｎｉｎｇａｎｄｏｎＯｕｔｐｕｔＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇ)ꎻ

• ２０１３年ＩＥＥＥ « 模式分析和机器智能» ( Ｔ￣ＰＡＭＩꎬ ９月) 的杂志中有

关学习深度架构的特刊 ( ２０１３ＳｐｅｃｉａｌＩｓｓｕｅｏｎＬｅａｒｎｉｎｇＤｅｅｐＡｒｃｈｉｔｅｃｔｕｒｅｓｉｎ

ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ ( Ｔ￣ＰＡＭＩꎬ

Ｓｅｐｔｅｍｂｅｒ ) ) ꎻ

• ２０１３年关于学习表示的国际会议 (２０１３ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

ＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ)ꎻ

• ２０１３年国际机器学习大会关于表示学习面临的挑战研讨会 (２０１３ＩＣＭＬ

ＷｏｒｋｓｈｏｐｏｎＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇＣｈａｌｌｅｎｇｅｓ)ꎻ

• ２０１３年国际机器学习大会关于音频、语音和语言处理中深度学习的研

讨会 (２０１３ＩＣＭＬＷｏｒｋｓｈｏｐｏｎＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＡｕｄｉｏꎬ Ｓｐｅｅｃｈꎬ ａｎｄＬａｎｇｕａｇｅ

Ｐｒｏｃｅｓｓｉｎｇ) ꎻ

• ２０１３年ＩＣＡＳＳＰ关于 « 语音识别中的新型神经网络以及相关应用» 专

栏 (２０１３ＩＣＡＳＳＰＳｐｅｃｉａｌＳｅｓｓｉｏｎｏｎＮｅｗＴｙｐｅｓｏｆＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋＬｅａｒｎｉｎｇ

ｆｏｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＲｅｌａｔｅｄＡｐｐｌｉｃａｔｉｏｎｓ)

本书的作者一直从事深度学习的研究ꎬ 也组织或参与过上述中的一些重要

会议以及特刊的编写工作ꎮ 要特别提出的是ꎬ 本书作者频频受邀在众多重要会

议上对深度学习进行专题报告ꎬ 而本书的部分内容也是基于这些报告内容整理

而成的ꎮ

在开始详细介绍深度学习的内容之前ꎬ 我们有必要先了解一些基本概念ꎬ

下面是一些与深度学习密切相关的概念和描述:

•定义１: “机器学习是一类利用多个非线性信息处理层来完成监督或者

无监督的特征提取和转化ꎬ 以及模式分析和分类等任务的技术ꎮ”

•定义２: “深度学习是机器学习的子领域ꎬ 它是一种通过多层表示来对

数据之间的复杂关系进行建模的算法ꎮ 高层的特征和概念取决于低层的特征和

概念ꎬ 这样的分层特征叫做深层ꎬ 其中大多数模型都基于无监督的学习表

示ꎮ”ꎻ (２０１２年３月维基百科对深度学习的定义ꎮ)

•定义３: “ 深度学习是机器学习的子领域ꎬ 它是基于多层表示的学习ꎬ

每层对应一个特定的特征、因素或概念ꎮ 高层概念取决于低层概念ꎬ 而且同一

低层的概念有助于确定多个高层概念ꎮ 深度学习是基于表示学习的众多机器学

习算法中的一员ꎮ 一个观测对象 ( 比如一张图片) 可以用很多种方式表示

(如像素的一个向量)ꎬ 但是有的表示则可以使基于训练样本的学习任务变得

更容易 (如判定某张图像是否为人脸图像)ꎮ 这一研究领域试图解决一个问

题: 哪些因素可以产生更好的表示ꎬ 以及对于这些表示应该如何学习ꎮ”

４　　　　

深度学习: 方法及应用

(２０１３年２月维基百科对深度学习的定义ꎮ)

•定义４: “深度学习是机器学习的一系列算法ꎬ 它试图在多个层次中进

行学习ꎬ 每层对应于不同级别的抽象ꎮ 它一般使用人工神经网络ꎬ 学习到的统

计模型中的不同层对应于不同级别的概念ꎮ 高层概念取决于低层概念ꎬ 而且同

一低层的概念有助于确定多个高层概念ꎮ” (２０１３年１０月维基百科对深度学习

的最新定义ꎮ)

•定义５: “深度学习是机器学习研究的一个新领域ꎬ 它的出现将机器学

习向人工智能这一目标进一步拉近ꎮ 深度学习是对多层表示和抽象的学习ꎬ 它

使一些包括如图像、声音和文本的数据变得有意义ꎮ” (参看网址: ｈｔｔｐｓ: / /

ｇｉｔｈｕｂ. ｃｏｍ / ｌｉｓａ￣ｌａｂ / ＤｅｅｐＬｅａｒｎｉｎｇＴｕｔｏｒｉａｌｓ)

应该注意的是ꎬ 本书所讨论的深度学习是使用深度结构来对信号和信息进

行处理ꎬ 而不是对信号或信息的深度理解ꎬ 尽管在有的情况下这两个方面可能

会比较相似ꎮ 在教育心理学中ꎬ 是这样定义深度学习的: “深度学习是描述学

习的一种方法ꎬ 其特点是: 主动参与、内在激励和个人对意义的探索ꎮ”

(ｈｔｔｐ: / / ｗｗｗ. ｂｌａｃｋｗｅｌｌｒｅｆｅｒｅｎｃｅ. ｃｏｍ / ｐｕｂｌｉｃ / ｔｏｃｎｏｄｅ? ｉｄ＝ｇ９７８１４０５１６１２５１＿

ｃｈｕｎｋ＿ｇ９７８１４０５１６１２５１６＿ｓｓ１￣１) 我们应该注意将深度学习与教育心理学中的

这些被滥用的术语区别开来ꎮ

在上述多个不同的高层描述中有两个重要的共同点: (１) 都包含多层或

多阶非线性信息处理的模型ꎻ (２) 都使用了连续的更高、更抽象层中的监督

或无监督学习特征表示的方法ꎮ 深度学习是包括神经网络、人工智能、图形化

建模、最优化、模式识别和信息处理的交叉领域ꎬ 它今天之所以如此受欢迎ꎬ

有三个重要原因: 其一ꎬ 芯片处理性能的巨大提升 ( 比如ꎬ 通用图形处理

器)ꎻ 其二ꎬ 用于训练的数据爆炸性增长ꎻ 其三ꎬ 近来ꎬ 机器学习和信号 / 信

息处理研究有了很大进展ꎬ 这些都使深度学习方法可以有效利用复杂的非线性

函数和非线性的复合函数来学习分布和分层的特征表示ꎬ 并且可以充分有效地

利用标注和非标注的数据ꎮ

近年来活跃在机器学习领域的研究机构包括众多高校ꎬ 比如多伦多大学、

纽约大学、加拿大蒙特利尔大学、斯坦福大学、加州大学伯克利分校、加州大

学、伦敦大学学院、密歇根大学、麻省理工学院、华盛顿大学ꎬ 还有一些企

业ꎬ 如微软研究院 ( 从２００９年开始)、谷歌 ( 大概从２０１１年开始)、ＩＢＭ研

究院 (大概从２０１１年开始)、百度 ( 从２０１２开始)、Ｆａｃｅｂｏｏｋ ( 从２０１３年开

始)、ＩＤＩＡＰ研究所、瑞士人工智能研究所等ꎮ 参看网址: ｈｔｔｐ: / / ｄｅｅｐｌｅａｒｎ￣

ｉｎｇ. ｎｅｔ / ｄｅｅｐ￣ｌｅａｒｎｉｎｇ￣ｒｅｓｅａｒｃｈ￣ｇｒｏｕｐｓ￣ａｎｄ￣ｌａｂｓ /

这些研究机构将深度学习方法成功地用于计算机领域的众多应用中ꎬ 其中

包括: 计算机视觉、语音识别、语音搜索、连续语音识别、语言与图像的特征

１　引　　言

５　　　　

编码、语义话语分类、自然语言理解、手写识别、音频处理、信息检索、机器

人学ꎬ 甚至有一个关于分子生物学的研究指出在深度学习方法的引领下发现了

新的药物

[２３７]

ꎮ

本书在最后一部分列出了一些参考文献ꎬ 如果需要了解这个领域的最新进

展ꎬ 推荐到以下网址获取:

• ｈｔｔｐ: / / ｄｅｅｐｌｅａｒｎｉｎｇ. ｎｅｔ / ｒｅａｄｉｎｇ￣ｌｉｓｔ/

• ｈｔｔｐ: / / ｕｆｌｄｌ. ｓｔａｎｆｏｒｄ. ｅｄｕ / ｗｉｋｉ / ｉｎｄｅｘ. ｐｈｐ / ＵＦＬＤＬ＿Ｒｅｃｏｍｍｅｎｄｅｄ＿

Ｒｅａｄｉｎｇｓ

• ｈｔｔｐ: / / ｗｗｗ. ｃｓ. ｔｏｒｏｎｔｏ. ｅｄｕ / ~ ｈｉｎｔｏｎ /

• ｈｔｔｐ: / / ｄｅｅｐｌｅａｒｎｉｎｇ. ｎｅｔ / ｔｕｔｏｒｉａｌ /

• ｈｔｔｐ: / / ｕｆｌｄｌ. ｓｔａｎｆｏｒｄ. ｅｄｕ / ｗｉｋｉ / ｉｎｄｅｘ. ｐｈｐ / ＵＦＬＤＬ＿Ｔｕｔｏｒｉａｌ

１􀆰 ２　本书的结构安排

本书后续章节按照以下结构进行编排:

在第２章中ꎬ 我们将简要对深度学习的历史加以回顾ꎬ 主要从以下三个问

题入手: 第一ꎬ 深度学习对语音识别技术有哪些影响ꎮ 第二ꎬ 这一重大科技革

命是如何开始的ꎮ 第三ꎬ 它是如何获得并保持如此强大动力的ꎮ

第３章讲述了深度学习中绝大多数研究所使用的三元分类法ꎮ 其中包括:

有监督、无监督和混合深度学习网络ꎮ 在分类任务中ꎬ 混合深度学习网络利用

无监督学习 (或称为预训练) 来辅助下一个阶段的监督学习ꎮ 有监督和混合

深度神经网络通常都具有同一类型的深度网络体系或结构ꎬ 但是无监督深度网

络的结构却往往不同ꎮ

第４ ~ ６章分别集中介绍了深度结构的三种主流类型ꎬ 这三种类型都来源

于第３章中所提到的三元分类法ꎮ 在第４章中ꎬ 深度自编码器作为无监督深度

学习网络的经典方法ꎬ 我们将详细对其进行介绍并加以讨论ꎮ 虽然其中巧妙地

利用到了后向传播这样的监督学习算法ꎬ 但是在学习的过程中并没有使用类别

标签信息ꎬ 而是将输入信号本身作为 “监督” 信号ꎮ

第５章作为混合深度网络分类的主要实例讲解部分ꎬ 详细介绍了这种用无

监督生成式的预训练方法来提高监督训练效率的深度学习网络ꎮ 在训练数据有

限ꎬ 并且没有其他合适的正则化方法 ( 如ｄｒｏｐｏｕｔ) 可利用的情况下ꎬ 混合深

度学习网络是很有用的ꎮ 这种独特的预训练方法是以受限玻尔兹曼机和本章所

要学习的深度学习网络为基础的ꎬ 它开启了深度学习在语音识别和其他信息处

理任务中的早期应用ꎬ 具有很重要的历史意义ꎮ 除了回顾综述以外ꎬ 我们也讨

论了混合深度学习网络的后续发展和近期出现的一些不同观点ꎮ

评论收藏

内容反馈

香言香语

2018-01-02

下载了，只有一个txt文本和pdf文档，pdf里面全是理论没有实战，对我来说没有什么用，txt文档里的地址，没有一个对我有用的，下来是我随意选择的一个地址，不信你可以看看近年来活跃在机器学习领域的研究机构包括众多高校? 比如多伦多大学、纽约大学、加拿大蒙特利尔大学、斯坦福大学、加州大学伯克利分校、加州大学、伦敦大学学院、密歇根大学、麻省理工学院、华盛顿大学? 还有一些企业? 如微软研究院 ( 从２００９年开始) 、谷歌 ( 大概从２０１１年开始) 、ＩＢＭ研究院 ( 大概从２０１１年开始) 、百度 ( 从２０１２开始) 、Ｆａｃｅ
cquwgp

2018-09-13

清晰倒是清晰，书就不评价了。