tessdata
========
These language data files only work with Tesseract 4.0.0 and newer versions.
They are based on the sources in
[tesseract-ocr/langdata](https://github.com/tesseract-ocr/langdata) on GitHub.
(still to be updated for 4.0.0 - 20180322)
These have models for legacy tesseract engine (--oem 0) as well as the new LSTM neural net based engine (--oem 1).
The LSTM models (--oem 1) in these files
have been updated to the integerized versions of
[tessdata_best](https://github.com/tesseract-ocr/tessdata_best) on GitHub.
So, they should be faster but probably a little less accurate than tessdata_best.
[tessdata_fast](https://github.com/tesseract-ocr/tessdata_fast) on GitHub
provides an alternate set of integerized LSTM models which have been built with a smaller network.
tessdata_fast files are the ones packaged for Debian and Ubuntu.
The legacy tesseract models (--oem 0) have been removed for Indic and
Arabic script language files.
tessdata for 3.04 or 3.05
-------------------------
Get language data files for Tesseract 3.04 or 3.05 from the
[3.04 tree](https://github.com/tesseract-ocr/tessdata/tree/3.04.00).
More information and a complete list of all languages is available in the
[Tesseract wiki](https://github.com/tesseract-ocr/tesseract/wiki/Data-Files).
All data in the repository are licensed under the
Apache-2.0 License, see file [LICENSE](LICENSE).
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Tessdata是包含Tesseract OCR引擎所需的训练数据文件(`.traineddata`),用于识别不同语言的文字。 使用场景的区别: 当你的OCR任务需要识别特定语言的文本时,使用tesdata目录中的语言特定训练数据文件会更加合适,因为它们包含了该语言特有的字符和语法信息,能够提供更高的识别准确率。 tessdata 主要用于Tesseract OCR(Optical Character Recognition,光学字符识别)引擎,提供了针对特定语言的训练数据。这些数据对于OCR任务来说至关重要,因为它们包含了字符识别、字体差异、语言特性等信息,使得Tesseract能够准确地识别和转换图像中的文本。以下是几种典型的使用场景介绍: 1. 文档数字化 在图书馆、档案馆或企业将纸质文档数字化为可搜索、可编辑的电子格式时,使用对应语言的tessdata文件能显著提高识别准确率。这对于保存历史文档、提高办公效率等方面非常有用。 2. 自动表单处理 企业和服务提供商经常需要处理大量的表单或申请,使用Tesseract OCR来自动读取表单上的信息(如姓名、地址、电话号码等),
资源推荐
资源详情
资源评论
收起资源包目录
tessdata-4.1.0-2024-03-20.zip Tessdata是包含Tesseract OCR引擎所需的训练数据 (133个子文件)
configs 19B
LICENSE 11KB
README.md 1KB
chi_tra.traineddata 56.29MB
chi_sim.traineddata 42.31MB
jpn.traineddata 34.01MB
eng.traineddata 22.38MB
nld.traineddata 22.09MB
frk.traineddata 21.81MB
fin.traineddata 20.16MB
rus.traineddata 19MB
spa_old.traineddata 18.72MB
pol.traineddata 18.45MB
tur.traineddata 17.88MB
spa.traineddata 17.41MB
hun.traineddata 17.22MB
frm.traineddata 17.03MB
ita_old.traineddata 16.54MB
ces.traineddata 15.49MB
ita.traineddata 15.21MB
deu.traineddata 14.72MB
kir.traineddata 14.72MB
por.traineddata 14.63MB
kor.traineddata 14.61MB
est.traineddata 14.59MB
fra.traineddata 13.55MB
slk.traineddata 13.45MB
hrv.traineddata 13.16MB
swe.traineddata 13MB
lit.traineddata 12.04MB
ukr.traineddata 11.83MB
san.traineddata 11.83MB
nor.traineddata 11.82MB
epo.traineddata 10.81MB
bel.traineddata 10.67MB
ron.traineddata 10.5MB
uzb.traineddata 10.26MB
lav.traineddata 10.14MB
dan.traineddata 10.09MB
osd.traineddata 10.07MB
eus.traineddata 9.68MB
aze.traineddata 9.67MB
slv.traineddata 9.48MB
srp_latn.traineddata 8.94MB
kaz.traineddata 8.83MB
lat.traineddata 8.79MB
isl.traineddata 8.62MB
kat.traineddata 8.34MB
sqi.traineddata 8.18MB
amh.traineddata 8.03MB
bul.traineddata 7.98MB
ind.traineddata 7.9MB
msa.traineddata 7.86MB
glg.traineddata 7.7MB
bos.traineddata 7.56MB
afr.traineddata 7.49MB
vie.traineddata 7.4MB
ell.traineddata 7.19MB
srp.traineddata 7.09MB
grc.traineddata 7.08MB
mlt.traineddata 7.08MB
jav.traineddata 7.04MB
tgl.traineddata 6.98MB
lao.traineddata 6.73MB
cat.traineddata 6.2MB
bre.traineddata 6.04MB
oci.traineddata 6.03MB
swa.traineddata 5.75MB
cym.traineddata 5.72MB
mal.traineddata 5.68MB
heb.traineddata 5.16MB
mkd.traineddata 5.08MB
enm.traineddata 4.97MB
que.traineddata 4.79MB
uzb_cyrl.traineddata 4.68MB
yid.traineddata 4.66MB
aze_cyrl.traineddata 4.51MB
gle.traineddata 4.45MB
mya.traineddata 4.43MB
iku.traineddata 3.62MB
tgk.traineddata 3.55MB
kan.traineddata 3.44MB
hye.traineddata 3.43MB
kmr.traineddata 3.4MB
fao.traineddata 3.28MB
tam.traineddata 3.2MB
hat.traineddata 3.17MB
tel.traineddata 3.16MB
mar.traineddata 3.05MB
gla.traineddata 2.93MB
jpn_vert.traineddata 2.9MB
uig.traineddata 2.66MB
ltz.traineddata 2.49MB
fil.traineddata 2.39MB
ara.traineddata 2.38MB
chi_sim_vert.traineddata 2.36MB
ceb.traineddata 2.29MB
chi_tra_vert.traineddata 2.26MB
cos.traineddata 2.19MB
equ.traineddata 2.15MB
共 133 条
- 1
- 2
资源评论
猫头虎
- 粉丝: 23w+
- 资源: 410
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功