一、本目录下放有内容为“1234”的图片一张,分别分割成内容为“12”一张,“34”一张共两张图片,模拟Tesseract多样本合并测试
二、生成box文件:
tesseract zh1.normal.exp0.jpg zh1.normal.exp0 -l zhuH batch.nochop makebox
tesseract zh2.normal.exp0.jpg zh2.normal.exp0 -l zhuH batch.nochop makebox
三、打开jTessBoxEditor矫正错误并训练
四、训练
1、(生成训练文件)
tesseract zh1.normal.exp0.tif zh1.normal.exp0 nobatch box.train
tesseract zh2.normal.exp0.tif zh2.normal.exp0 nobatch box.train
2、从所有文件中提取字符
unicharset_extractor zh1.normal.exp0.box zh2.normal.exp0.box
3、生成特征文字
(echo 字体 0 0 0 0 0 >font_properties)
echo normal 0 0 0 0 0 >font_properties
4、生成Shape文件
shapeclustering -F font_properties -U unicharset zh1.normal.exp0.tr zh2.normal.exp0.tr
(特别注意这里不能写成如下两行,否则前面生成的shapetable文件会被后面的覆盖,导致识别不准)
shapeclustering -F font_properties -U unicharset zh1.normal.exp0.tr
shapeclustering -F font_properties -U unicharset zh2.normal.exp0.tr
5、生成字符特征文件:
mftraining -F font_properties -U unicharset -O unicharset zh1.normal.exp0.tr zh2.normal.exp0.tr
6、聚集所有.tr 文件
cntraining zh1.normal.exp0.tr zh2.normal.exp0.tr
7、重命名文件,我把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀 zh. (自己定,随意,注意后面有一个.)
rename normproto zh.normproto
rename inttemp zh.inttemp
rename pffmtable zh.pffmtable
rename unicharset zh.unicharset
rename shapetable zh.shapetable
8、合并所有文件 生成一个大的字库文件
combine_tessdata zh.
五、测试
1、把 zh.traineddata 复制到Tesseract-OCR 安装目录下的tessdata文件夹中
2、识别命令(识别1234.jpg文件试试):
tesseract 1234.jpg 1234 -l zh
3、打开生成的“1234.txt”文件可以看到识别出来的文字 1234 表示成功!
特别感谢“虾眼猫”的部分提示建议!!
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
Tesseract多样本合并训练测试.zip (20个子文件)
zh.inttemp 117KB
zh.traineddata 119KB
zh1.normal.exp0.tr 3KB
zh2.normal.exp0.tr 3KB
zh2.normal.exp0.box 31B
zh.unicharset 272B
zh.shapetable 76B
zh2.normal.exp0.txt 2B
zh1.normal.exp0.tif 5KB
多样本合并训练测试脚本.txt 2KB
zh1.normal.exp0.box 31B
1234.txt 6B
font_properties 20B
zh.pffmtable 41B
zh2.normal.exp0.tif 5KB
zh2.normal.exp0.jpg 2KB
1234.jpg 2KB
zh1.normal.exp0.txt 2B
zh1.normal.exp0.jpg 2KB
zh.normproto 662B
共 20 条
- 1
资源评论
zh672903
- 粉丝: 3
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IMG_20240424_183805.jpg
- DatabaseWatermarkingBasedonTextFormat
- -移动通信-网络课程设计与研究
- 基于Python的PCA人脸识别算法的原理及实现代码+文档详解.zip
- 甘肃移动全业务工程建设项目管理流程优化研究
- 549springboot + vue 民宿管理平台.zip (可运行源码+数据库文件+文档)
- ZArchiver.Pro_0.9.5.apk
- vmware环境配置.mp4
- 548springboot + vue 大学生社团活动平台.zip(可运行源码+数据库文件+文档)
- 微信小程序 辩论倒计时小程序源码 作业设计demo 计算机专业参考
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功