深度学习
2017 年 9 月 4 日
ii
目录
致谢 xvi
网站 xxii
数学符号 xxiii
第一章 引言 1
1.1 本书面向的读者 . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 深度学习的历史趋势 . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 神经网络的众多名称和命运变迁 . . . . . . . . . . . 12
1.2.2 与日俱增的数据量 . . . . . . . . . . . . . . . . . . . 17
1.2.3 与日俱增的模型规模 . . . . . . . . . . . . . . . . . . 19
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击 . . . . 22
第一部分 应用数学与机器学习基础 25
第二章 线性代数 27
2.1 标量、向量、矩阵和张量 . . . . . . . . . . . . . . . . . . . . 27
2.2 矩阵和向量相乘 . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3
单位矩阵和逆矩阵
. . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 线性相关和生成子空间 . . . . . . . . . . . . . . . . . . . . . . 32
2.5 范数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 特殊类型的矩阵和向量 . . . . . . . . . . . . . . . . . . . . . . 36
2.7 特征分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
iii
iv 目录
2.8 奇异值分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9 Moore-Penrose 伪逆 . . . . . . . . . . . . . . . . . . . . . . . 40
2.10 迹运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.11 行列式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.12 实例:主成分分析 . . . . . . . . . . . . . . . . . . . . . . . . 42
第三章 概率与信息论 47
3.1 为什么要使用概率? . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.1 离散型变量和概率质量函数 . . . . . . . . . . . . . . 50
3.3.2 连续型变量和概率密度函数 . . . . . . . . . . . . . . 51
3.4 边缘概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 条件概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.6 条件概率的链式法则 . . . . . . . . . . . . . . . . . . . . . . . 53
3.7 独立性和条件独立性 . . . . . . . . . . . . . . . . . . . . . . . 53
3.8 期望、方差和协方差 . . . . . . . . . . . . . . . . . . . . . . . 54
3.9 常用概率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.9.1 Bernoulli 分布 . . . . . . . . . . . . . . . . . . . . . 56
3.9.2 Multinoulli 分布 . . . . . . . . . . . . . . . . . . . . 56
3.9.3 高斯分布 . . . . . . . . . . . . . . . . . . . . . . . . 57
3.9.4 指数分布和 Laplace 分布 . . . . . . . . . . . . . . . 58
3.9.5 Dirac 分布和经验分布 . . . . . . . . . . . . . . . . . 59
3.9.6 分布的混合 . . . . . . . . . . . . . . . . . . . . . . . 59
3.10 常用函数的有用性质 . . . . . . . . . . . . . . . . . . . . . . . 61
3.11 贝叶斯规则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.12 连续型变量的技术细节 . . . . . . . . . . . . . . . . . . . . . . 64
3.13 信息论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.14 结构化概率模型 . . . . . . . . . . . . . . . . . . . . . . . . . . 69
第四章 数值计算 72
4.1 上溢和下溢 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2 病态条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
目录 v
4.3 基于梯度的优化方法 . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.1 梯度之上:Jacobian 和 Hessian 矩阵 . . . . . . . . . 77
4.4 约束优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5 实例:线性最小二乘 . . . . . . . . . . . . . . . . . . . . . . . 85
第五章 机器学习基础 87
5.1 学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.1.1 任务 T . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.1.2 性能度量 P . . . . . . . . . . . . . . . . . . . . . . . 91
5.1.3 经验 E . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.1.4 示例:线性回归 . . . . . . . . . . . . . . . . . . . . 94
5.2 容量、过拟合和欠拟合 . . . . . . . . . . . . . . . . . . . . . . 97
5.2.1 没有免费午餐定理 . . . . . . . . . . . . . . . . . . . 102
5.2.2 正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3 超参数和验证集 . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3.1 交叉验证 . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4 估计、偏差和方差 . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4.1 点估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4.2 偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.4.3 方差和标准差 . . . . . . . . . . . . . . . . . . . . . . 111
5.4.4 权衡偏差和方差以最小化均方误差 . . . . . . . . . . 113
5.4.5 一致性 . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.5 最大似然估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.5.1 条件对数似然和均方误差 . . . . . . . . . . . . . . . 116
5.5.2 最大似然的性质 . . . . . . . . . . . . . . . . . . . . 117
5.6 贝叶斯统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.6.1 最大后验 (MAP) 估计 . . . . . . . . . . . . . . . . . 121
5.7 监督学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.7.1 概率监督学习 . . . . . . . . . . . . . . . . . . . . . . 122
5.7.2 支持向量机 . . . . . . . . . . . . . . . . . . . . . . . 123
5.7.3 其他简单的监督学习算法 . . . . . . . . . . . . . . . 125
5.8 无监督学习算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.8.1 主成分分析 . . . . . . . . . . . . . . . . . . . . . . . 128