3.1.4 正则化最⼩平⽅ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.1.5 多个输出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.2 偏置-⽅差分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.3 贝叶斯线性回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3.1 参数分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3.2 预测分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.3.3 等价核 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.4 贝叶斯模型⽐较 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.5 证据近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.5.1 计算证据函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.5.2 最⼤化证据函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.5.3 参数的有效数量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.6 固定基函数的局限性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.7 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4 分类的线性模型 130
4.1 判别函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.1.1 ⼆分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.1.2 多分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.1.3 ⽤于分类的最⼩平⽅⽅法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.1.4 Fisher线性判别函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.1.5 与最⼩平⽅的关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.1.6 多分类的Fisher判别函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.1.7 感知器算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2 概率⽣成式模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.2.1 连续输⼊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.2.2 最⼤似然解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.2.3 离散特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.2.4 指数族分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3 概率判别式模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.1 固定基函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2 logistic回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4.3.3 迭代重加权最⼩平⽅ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.3.4 多类logistic回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.3.5 probit回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.3.6 标准链接函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.4 拉普拉斯近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.1 模型⽐较和BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.5 贝叶斯logistic回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.5.1 拉普拉斯近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.5.2 预测分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.6 练习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5 神经⽹络 161
5.1 前馈神经⽹络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.1.1 权空间对称性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.2 ⽹络训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.2.1 参数最优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.2.2 局部⼆次近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.2.3 使⽤梯度信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.2.4 梯度下降最优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.3 误差反向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
3
评论0