没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Supervised Sequence Labelling with Recurrent
Neural Networks
Alex Graves
Contents
List of Tables iv
List of Figures v
List of Algorithms vii
1 Introduction 1
1.1 Structure of the Book . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Supervised Sequence Labelling 4
2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Pattern Classification . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Probabilistic Classification . . . . . . . . . . . . . . . . . . 5
2.2.2 Training Probabilistic Classifiers . . . . . . . . . . . . . . 5
2.2.3 Generative and Discriminative Methods . . . . . . . . . . 7
2.3 Sequence Labelling . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 Sequence Classification . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Segment Classification . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Temporal Classification . . . . . . . . . . . . . . . . . . . 11
3 Neural Networks 12
3.1 Multilayer Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.1 Forward Pass . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2 Output Layers . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3 Loss Functions . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.4 Backward Pass . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Recurrent Neural Networks . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 Forward Pass . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2 Backward Pass . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3 Unfolding . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.4 Bidirectional Networks . . . . . . . . . . . . . . . . . . . . 21
3.2.5 Sequential Jacobian . . . . . . . . . . . . . . . . . . . . . 23
3.3 Network Training . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Gradient Descent Algorithms . . . . . . . . . . . . . . . . 25
3.3.2 Generalisation . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.3 Input Representation . . . . . . . . . . . . . . . . . . . . . 29
3.3.4 Weight Initialisation . . . . . . . . . . . . . . . . . . . . . 30
i
CONTENTS ii
4 Long Short-Term Memory 31
4.1 Network Architecture . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Influence of Preprocessing . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Gradient Calculation . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Architectural Variants . . . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Bidirectional Long Short-Term Memory . . . . . . . . . . . . . . 36
4.6 Network Equations . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.6.1 Forward Pass . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.6.2 Backward Pass . . . . . . . . . . . . . . . . . . . . . . . . 38
5 A Comparison of Network Architectures 39
5.1 Experimental Setup . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Network Architectures . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1 Computational Complexity . . . . . . . . . . . . . . . . . 41
5.2.2 Range of Context . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.3 Output Layers . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Network Training . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3.1 Retraining . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4.1 Previous Work . . . . . . . . . . . . . . . . . . . . . . . . 45
5.4.2 Effect of Increased Context . . . . . . . . . . . . . . . . . 46
5.4.3 Weighted Error . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Hidden Markov Model Hybrids 48
6.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.2 Experiment: Phoneme Recognition . . . . . . . . . . . . . . . . . 49
6.2.1 Experimental Setup . . . . . . . . . . . . . . . . . . . . . 49
6.2.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7 Connectionist Temporal Classification 52
7.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.2 From Outputs to Labellings . . . . . . . . . . . . . . . . . . . . . 54
7.2.1 Role of the Blank Labels . . . . . . . . . . . . . . . . . . . 54
7.2.2 Bidirectional and Unidirectional Networks . . . . . . . . . 55
7.3 Forward-Backward Algorithm . . . . . . . . . . . . . . . . . . . . 55
7.3.1 Log Scale . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.4 Loss Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.4.1 Loss Gradient . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.5 Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.5.1 Best Path Decoding . . . . . . . . . . . . . . . . . . . . . 62
7.5.2 Prefix Search Decoding . . . . . . . . . . . . . . . . . . . 62
7.5.3 Constrained Decoding . . . . . . . . . . . . . . . . . . . . 63
7.6 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.6.1 Phoneme Recognition 1 . . . . . . . . . . . . . . . . . . . 69
7.6.2 Phoneme Recognition 2 . . . . . . . . . . . . . . . . . . . 70
7.6.3 Keyword Spotting . . . . . . . . . . . . . . . . . . . . . . 71
7.6.4 Online Handwriting Recognition . . . . . . . . . . . . . . 75
7.6.5 Offline Handwriting Recognition . . . . . . . . . . . . . . 78
7.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
CONTENTS iii
8 Multidimensional Networks 83
8.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.2 Network Architecture . . . . . . . . . . . . . . . . . . . . . . . . 85
8.2.1 Multidirectional Networks . . . . . . . . . . . . . . . . . . 87
8.2.2 Multidimensional Long Short-Term Memory . . . . . . . . 90
8.3 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.1 Air Freight Data . . . . . . . . . . . . . . . . . . . . . . . 91
8.3.2 MNIST Data . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.3.3 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9 Hierarchical Subsampling Networks 96
9.1 Network Architecture . . . . . . . . . . . . . . . . . . . . . . . . 97
9.1.1 Subsampling Window Sizes . . . . . . . . . . . . . . . . . 99
9.1.2 Hidden Layer Sizes . . . . . . . . . . . . . . . . . . . . . . 99
9.1.3 Number of Levels . . . . . . . . . . . . . . . . . . . . . . . 100
9.1.4 Multidimensional Networks . . . . . . . . . . . . . . . . . 100
9.1.5 Output Layers . . . . . . . . . . . . . . . . . . . . . . . . 101
9.1.6 Complete System . . . . . . . . . . . . . . . . . . . . . . . 103
9.2 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9.2.1 Offline Arabic Handwriting Recognition . . . . . . . . . . 106
9.2.2 Online Arabic Handwriting Recognition . . . . . . . . . . 108
9.2.3 French Handwriting Recognition . . . . . . . . . . . . . . 111
9.2.4 Farsi/Arabic Character Classification . . . . . . . . . . . 112
9.2.5 Phoneme Recognition . . . . . . . . . . . . . . . . . . . . 113
Bibliography 117
Acknowledgements 128
List of Tables
5.1 Framewise phoneme classification results on TIMIT . . . . . . . . 45
5.2 Comparison of BLSTM with previous network . . . . . . . . . . . 46
6.1 Phoneme recognition results on TIMIT . . . . . . . . . . . . . . . 50
7.1 Phoneme recognition results on TIMIT with 61 phonemes . . . . 69
7.2 Folding the 61 phonemes in TIMIT onto 39 categories . . . . . . 70
7.3 Phoneme recognition results on TIMIT with 39 phonemes . . . . 72
7.4 Keyword spotting results on Verbmobil . . . . . . . . . . . . . . 73
7.5 Character recognition results on IAM-OnDB . . . . . . . . . . . 76
7.6 Word recognition on IAM-OnDB . . . . . . . . . . . . . . . . . . 76
7.7 Word recognition results on IAM-DB . . . . . . . . . . . . . . . . 81
8.1 Classification results on MNIST . . . . . . . . . . . . . . . . . . . 93
9.1 Networks for offline Arabic handwriting recognition . . . . . . . . 107
9.2 Offline Arabic handwriting recognition competition results . . . . 108
9.3 Networks for online Arabic handwriting recognition . . . . . . . . 110
9.4 Online Arabic handwriting recognition competition results . . . . 111
9.5 Network for French handwriting recognition . . . . . . . . . . . . 112
9.6 French handwriting recognition competition results . . . . . . . . 113
9.7 Networks for Farsi/Arabic handwriting recognition . . . . . . . . 114
9.8 Farsi/Arabic handwriting recognition competition results . . . . 114
9.9 Networks for phoneme recognition on TIMIT . . . . . . . . . . . 116
9.10 Phoneme recognition results on TIMIT . . . . . . . . . . . . . . . 116
iv
剩余136页未读,继续阅读
资源评论
- wunianvin2020-02-23很不错的书 对于初学者来说 公式推导和结构图都很不错
- IT铁人2018-02-01不错哦,下来看看
- mzg123456782020-04-10不错的分享,学习中
- badstones2017-10-16哈哈哈,不错哦。liuchengdu
顿顿304122
- 粉丝: 0
- 资源: 43
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功