# CRNN-Pytorch 记录CRNN的学习
CRNN是2015年提出的一种,端对端的,场景文字识别方法,它采用CNN与RNN的结合来进行学习。它相对于其他算法主要有以下两个特点:
1. 端对端训练,直接输入图片给出结果,而不是把多个训练好的模型进行组合来识别
2. 不需要对图片中的文字进行分割就可以进行识别,可以适应任意长度的序列
CRNN具体的网络结构如下:
注意:为了与论文保持一致,本文的宽高结构均用**宽 × 高**来表示,三维张量格式为**宽 × 高 × 通道数**
*其中k表示卷积核大小(kernel_size),s表示步长(stride),p表示填充(padding_size)*
| Type | Configurations | Output Size |
| :----------------: | :--------------------------: | :---------------: |
| Input | W × 32 gray-scale image | W × 32 × 1 |
| Convolution | #maps:64, k:3 × 3, s:1, p:1 | W × 32 × 64 |
| MaxPooling | Window:2 × 2, s:2 | W/2 × 16 × 64 |
| Convolution | #maps:128, k:3 × 3, s:1, p:1 | W/2 × 16 × 128 |
| MaxPooling | Window:2 × 2, s:2 | W/4 × 8 × 128 |
| Convolution | #maps:256, k:3 × 3, s:1, p:1 | W/4 × 8 × 256 |
| Convolution | #maps:256, k:3 × 3, s:1, p:1 | W/4 × 8 × 256 |
| MaxPooling | Window:1 × 2, s:2 | W/4 × 4 × 256 |
| Convolution | #maps:512, k:3 × 3, s:1, p:1 | W/4 × 4 × 512 |
| BatchNormalization | - | W/4 × 4 × 512 |
| Convolution | #maps:512, k:3 × 3, s:1, p:1 | W/4 × 4 × 512 |
| BatchNormalization | - | W/4 × 4 × 512 |
| MaxPooling | Window:1 × 2, s:2 | W/4 × 2 × 512 |
| Convolution | #maps:512, k:2 × 2, s:1, p:0 | W/4-1 × 1 × 512 |
| Map-to-Sequence | - | W/4-1 × 512 |
| Bidirectional-LSTM | #hidden units:256 | W/4-1 × 256 |
| Bidirectional-LSTM | #hidden units:256 | W/4-1 × label_num |
| Transcription | - | str |
### 卷积
从上表的配置可以看出,卷积层很像VGG-11。不同的地方主要有两个:
1. 增加了批归一化层
2. 池化层的大小从正方形变成了长方形
加入批归一化层可以加快训练。而用高为2宽为1的长方形更容易获取窄长英文字母的特征,这样更容易区分像i和l这样的字母。
参考
- https://github.com/ypwhs/captcha_break
- https://github.com/luoqianlin/deep-learning-demo
- https://github.com/zhaobomin/crnn.pytorch-ocr-train
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
CRNN-Pytorch 记录CRNN的学习 CRNN是2015年提出的一种,端对端的,场景文字识别方法,它采用CNN与RNN的结合来进行学习。它相对于其他算法主要有以下两个特点: 端对端训练,直接输入图片给出结果,而不是把多个训练好的模型进行组合来识别 不需要对图片中的文字进行分割就可以进行识别,可以适应任意长度的序列 里面包括所有的代码,可以进行训练,本代码是训练了IIIIT-5k的数据集,得到了模型在文件夹内,可以进行训练和预测 除此之外,ipynb文件中,利用pytorch搭建CRNN,对验证码进行识别,准确率都是很不错的,达到很不错的结果,可以自定图片和网络结构
资源推荐
资源详情
资源评论
收起资源包目录
CRNN完整源码实现--用PyTorch攻陷文字识别 (2000个子文件)
.gitignore 9B
ctc_pytorch_tensorboard.ipynb 63KB
testdata.mat 21.02MB
traindata.mat 13.65MB
testCharBound.mat 152KB
trainCharBound.mat 97KB
CRNN_NOTE.md 15KB
README.md 3KB
train_fix_width.pkl 39.12MB
2332_2.png 1.64MB
2143_1.png 646KB
2579_4.png 640KB
2380_1.png 572KB
2332_1.png 527KB
5026_1.png 486KB
2579_3.png 466KB
2075_1.png 431KB
2244_2.png 401KB
529_7.png 376KB
2244_1.png 355KB
2334_1.png 348KB
2075_2.png 339KB
2028_1.png 333KB
2027_1.png 329KB
2005_3.png 328KB
2052_1.png 318KB
5116_5.png 296KB
5027_14.png 288KB
2579_2.png 283KB
1041_2.png 266KB
529_3.png 263KB
2062_1.png 255KB
594_5.png 255KB
529_6.png 246KB
2285_1.png 228KB
2285_2.png 225KB
2074_1.png 223KB
5145_1.png 218KB
5152_6.png 213KB
2606_1.png 212KB
440_15.png 211KB
440_3.png 207KB
2003_1.png 206KB
1041_3.png 202KB
2285_5.png 200KB
2619_1.png 197KB
529_5.png 193KB
2003_2.png 166KB
1041_1.png 164KB
1_1.png 158KB
1090_1.png 157KB
529_8.png 154KB
389_1.png 148KB
2074_2.png 147KB
2561_1.png 145KB
2562_1.png 141KB
439_5.png 140KB
5061_1.png 140KB
2375_1.png 139KB
5059_4.png 139KB
2162_1.png 137KB
529_15.png 129KB
2097_1.png 127KB
5101_1.png 126KB
5059_5.png 126KB
529_20.png 122KB
176_1.png 121KB
62_1.png 119KB
2366_1.png 115KB
2285_4.png 115KB
5165_12.png 112KB
252_3.png 112KB
195_5.png 112KB
2211_1.png 110KB
5074_1.png 110KB
2005_2.png 110KB
2619_2.png 109KB
5051_17.png 107KB
2631_1.png 107KB
577_1.png 107KB
2368_1.png 105KB
2210_1.png 104KB
5010_7.png 104KB
5074_2.png 103KB
594_1.png 102KB
2211_2.png 101KB
252_1.png 100KB
2064_1.png 99KB
5165_13.png 97KB
5019_1.png 97KB
2551_2.png 97KB
2140_2.png 94KB
5006_1.png 94KB
2457_1.png 92KB
5015_1.png 91KB
2351_1.png 91KB
5001_1.png 89KB
2560_1.png 88KB
195_1.png 88KB
2469_2.png 87KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
风信子的猫Redamancy
- 粉丝: 1w+
- 资源: 50
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
- 4
- 5
前往页