deep_ocr-master.zip_deepocr_deep_ocr_ocrpython_ocr深度学习

共51个文件

py：26个

png：10个

prototxt：3个

版权申诉

49 浏览量 2022-07-15 12:51:11 上传评论 1 收藏 198KB ZIP 举报

【深度学习OCR技术详解】深度学习OCR（Optical Character Recognition，光学字符识别）是一种利用深度学习模型对图像中的文字进行识别的技术。随着深度学习的发展，OCR技术已经从传统的基于模板匹配的方法转变为基于神经网络的解决方案，大大提高了字符识别的准确性和效率。 1. **深度学习基础** 深度学习是机器学习的一个分支，它模仿人脑的工作原理构建多层神经网络，以解决复杂的非线性问题。在OCR中，深度学习模型如卷积神经网络（CNN）和循环神经网络（RNN）被广泛应用于文字检测和识别。 2. **卷积神经网络（CNN）** CNN在图像处理领域表现出色，尤其在特征提取方面。在OCR中，CNN可以用于提取图像中的文字特征，例如边缘、形状和纹理，这些特征对于区分不同的字符至关重要。 3. **循环神经网络（RNN）与LSTM** RNNs特别适合处理序列数据，如文本，因为它们能够记住之前的输入信息。在OCR中，RNN可以用来识别连续的字符序列。长短期记忆网络（LSTM）是RNN的一种变体，能更有效地处理长期依赖问题，进一步提升OCR性能。 4. **OCR流程** OCR通常包括四个主要步骤：图像预处理、文字检测、字符分割和字符识别。预处理包括图像去噪、二值化等；文字检测定位出图像中的文字区域；字符分割将文字区域分解为单个字符；字符识别模型对每个字符进行识别。 5. **开源项目“deep_ocr”** “deep_ocr”是一个深度学习OCR的开源代码，提供了完整的OCR解决方案。该项目可能包含训练模型的代码、预处理和后处理函数，以及可能的模型优化策略。开发者可以利用这个项目快速搭建自己的OCR系统，或者对现有的OCR模型进行改进和扩展。 6. **OCR的应用** OCR技术广泛应用于各种场景，如文档扫描、自动表单填写、车牌识别、电子发票处理等。通过深度学习OCR，可以自动化处理大量文本数据，节省人力成本，提高工作效率。 7. **训练与优化** 训练深度学习OCR模型需要大量的标注数据，这包括带文字的图像和对应的字符标签。模型优化通常涉及超参数调整、数据增强、迁移学习等方法，以提高模型在不同场景下的泛化能力。 8. **未来趋势** 随着AI技术的进步，OCR将变得更加智能，能够处理更复杂的情况，如手写文字识别、多语言识别等。此外，结合自然语言处理（NLP）技术，OCR系统可能会发展成能理解上下文的智能文本识别工具。 “deep_ocr-master.zip”提供的深度学习OCR项目涵盖了深度学习的基础知识、OCR技术的核心原理以及实际应用，对于学习和实践OCR技术具有很高的参考价值。通过深入理解和实践这个项目，开发者可以更好地掌握深度学习在OCR领域的应用，并将其拓展到更多实际场景中。

资源详情

资源评论

资源推荐

收起资源包目录

deep_ocr-master.zip （51个子文件）

deep_ocr-master

.gitmodules 324B

bin

deep_ocr_reco_captcha 4KB

deep_ocr_id_card_segmentation 3KB

deep_ocr_make_caffe_dataset 5KB

deep_ocr_id_card_reco 5KB

data

captcha

simple.png 1022B

captcha.png 17KB

fonts

trained_models

lesson3

mnist003.png 5KB

mnist007.png 2KB

mnist001.png 4KB

mnist006.png 2KB

mnist005.png 2KB

mnist_y_tag.json 100B

mnist004.png 5KB

mnist002.png 3KB

id_card_img.jpg 71KB

caffe_nets

lower_eng

lenet_train_test.prototxt 2KB

lenet_solver.prototxt 833B

train_lenet.sh 197B

create_lmdb.sh 2KB

lenet.prototxt 2KB

lessons

lesson3.2.call_mnist.py 3KB

lesson1_line_and_char_detection.py 4KB

lesson2_single_digit_reco.py 432B

lesson4_test_cls.py 3KB

README.md 58B

python

deep_ocr

utils.py 4KB

captcha

search_best_segmentation.py 3KB

char_segmentation.py 5KB

__init__.py 24B

rm_noise.py 2KB

reco_text_line.py 6KB

__init__.py 0B

cv2_img_proc.py 7KB

lang_aux.py 4KB

id_cards

char_set.py 2KB

segmentation.py 10KB

__init__.py 25B

caffe_clf.py 3KB

langs

lower_eng.py 134B

test.py 120B

eng.py 161B

__init__.py 0B

digits.py 118B

upper_eng.py 161B

chi_sim.py 19KB

chi_tra.py 10KB

docker

cpu

.gitignore 1KB

test_data.png 27KB

README.md 4KB

reco_chars.py 13KB

deep ocr -------- 估计很多开发员使用tesseract做中文识别，但是结果不是一般的差，譬如下面的图片 ![alt text](https://github.com/JinpengLI/deep_ocr/blob/master/test_data.png "需要识别文本") ``` $ tesseract -l chi_sim test_data.png out_test_data ``` ``` 看到恨多公司在招腭大改癫和机器字习胸人 v 我有3个建议 (T) 忧T ' 2个上t较靠遭胸人就譬了 v不是越多越好 (2) 这T '2个人要能给大蒙上踝'倩邂知L目 (3) 不要招不宣代四胸人:虹大改癫和机器字习胸v不裹目宣 (或者宣过) 大量代四v基本上就只会忽悠了 ``` 其实现在做文字识别不是很难，特别基于深度学习，这里是这个项目的reco_chars.py脚本，基于caffe的识别效果，是不是好很多？而且代码比tesseract短很多。 ``` $ python reco_chars.py ``` ``` 看很多公苘在招聘天数据和机器学习人我有个建议找个较靠谱的人就够了不是越多越好这个人要给大家上课传递知识不要招不写代码的人做天数据机器学习的不亲写或者写过天且代码基本上就只会忽悠了 ``` 大家可以基于caffe训练自己的字体，系统基于这个文章开发单个字的识别： ``` Deep Convolutional Network for Handwritten Chinese Character Recognition http://cs231n.stanford.edu/reports/zyh_project.pdf ``` 通过 Docker 安装 ------------------------ 先安装docker，以下教程在Ubuntu 14.04 通过测试 ``` https://www.docker.com/ ``` 下载deep_ocr_workspace.zip (https://pan.baidu.com/s/1nvz2wrB 和 https://pan.baidu.com/s/1qYPKH3Y ) 两个文件的md5sum值，用于校验文件是否成功下载。 ``` $ md5sum deep_ocr_workspace.zip ffeda7ea6604e7b8835c05a33fa0459e deep_ocr_workspace.zip $ md5sum deep_ocr_workspace.z01 ea66796c2bbdb2bec9b7ee28eb44012d deep_ocr_workspace.z01 ``` 解压到本地硬盘，譬如到以下地方 (~/deep_ocr_workspace) ``` cat deep_ocr_workspace.z* > unsplit_deep_ocr_workspace.zip unzip unsplit_deep_ocr_workspace.zip -d ~/ ``` 这个zip包含deep_ocr所有需要数据文件（由于太大了，所以放百度云了）。所有数据到解压到 `~/deep_ocr_workspace`，你也可以把需要处理的数据放到这个文件夹。基于cpu ======= ``` docker pull jinpengli/deep_ocr_cpu_docker:latest ``` 启动 docker container ``` docker run -ti --volume=${HOME}/deep_ocr_workspace:/workspace jinpengli/deep_ocr_cpu_docker:latest /bin/bash cd /opt/deep_ocr git pull origin master ``` volume用于mount到container里面，这样可以获取上面的识别结果。 ``` python /opt/deep_ocr/reco_chars.py ``` 然后可以继续你们的开发。。。。加油。。。身份证识别 ======== 暂时不是很稳定，需要加一些语义模型。等等吧。。。。识别图片 ![识别图片](https://github.com/JinpengLI/deep_ocr/raw/master/data/id_card_img.jpg) 执行命令 ``` export WORKSPACE=/workspace deep_ocr_id_card_reco --img $DEEP_OCR_ROOT/data/id_card_img.jpg --debug_path /tmp/debug --cls_sim ${WORKSPACE}/data/chongdata_caffe_cn_sim_digits_64_64 --cls_ua ${WORKSPACE}/data/chongdata_train_ualpha_digits_64_64 ``` 识别结果： ``` ... ocr res: ============================================================ name 韦小宝 ============================================================ address 北京市东城区累山前街4号紫禁城敬事房 ============================================================ month 12 ============================================================ minzu 汉 ============================================================ year 1654 ============================================================ sex 男 ============================================================ id 1X21441114X221243X ============================================================ day 20 ```