Python获得pdf中的纯文字和图片文字需要的资源tesseract-ocr资源-CSDN文库

共5个文件

exe：2个

traineddata：1个

jar：1个

需积分: 5 170 浏览量 2022-11-06 19:06:49 上传评论收藏 178.87MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

Python获得pdf中的纯文字和图片文字.zip （5个子文件）

tesseract-ocr-w64-v5.0.0.exe 42.33MB

chi_sim.traineddata 42.31MB

gs1000w64.exe 52.18MB

tika-server-1.24.jar 73.83MB

Python获得pdf中的纯文字和图片文字.docx 237KB

Python 获得 pdf 中的文字、图片文字方法。

OCR，全称 Optical character recognition，中文译名叫做光学文字识别。它把图像中的字

符，转换为机器编码的文本的一种方法。OCR 技术在印刷行业应用得非常多，也广泛用于识

别图片中的文字数据 – 比如护照，支票，银行声明，收据，统计表单，邮件等。

pytesseract，即 Python-tesseract，是 Google Tesseract ORC 引擎的封装。首次于 2014 年

提出，支持的图片格式有’JPEG’, ‘PNG’, ‘PBM’, ‘PGM’, ‘PPM’, ‘TIFF’, ‘BMP’, ‘GIF’，只需要简短的

代码就能够提取图片中的字符合文字了，极大方便文字工作。

一、准备工作

1，安装 pillow 或者 PIL，主要用来打开本地图片

pip install PIL

pip install pillow

2，安装 pytesseract，主要用来将图片里面文字转化字符串或者 pdf

pip install pytesseract

3，安装 Tesseract-OCR 应用程序

进入 https://pan.baidu.com/s/1qXumxdltxOnb0geaE_1U-Q

下载 tesseract-ocr-w64-v5.0.0.exe

设置环境变量：新增系统变量 TESSDATA_PREFIX

新增 PATH 路径：

配置就完成

测试是否安装成功

输入 tesseract -v 如果出现版本号则安装成功，如下图所示

进行识别

打开 cmd->定位到所要识别的图片的位置

输入如下语句：tesseract pic3.png a [ -l chi_sim]

pic3.png 是你图片的名称，a 是保存文字的 txt 文件，后缀名可省略，默认

的识别语言是英文，如果是中文要利用-l chi_sim 换成中文

4，修改 pytesseract 源码中的路径

进入 python 目录\Lib\site-packages\pytesseract，用 Notepad++打开 pytesseract.py，将源

码第 26 行的路径修改成安装 Tesseract-OCR 应用程序路径。

tesseract_cmd = 'tesseract.exe'

修改成

tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

5，安装中文字库

进入 https://pan.baidu.com/s/1GfspC5uef73B2Oa8YudBgQ ，下载中文库复制到

Tesseract-OCR 安装目录下的 tessdata 文件夹中，

（实际上是 chi_sim.traineddata 最好在 C:\Program Files \Tesseract-OCR 目录下）

二、利用 Python 提取 PDF 文本的简单方法实例

一般情况下，Ctrl+C 是最简单的方法，当无法 Ctrl+C 时，我们借助于

Python，以下是具体步骤：

第一步，安装工具库

1、tika — 用于从各种文件格式中进行文档类型检测和内容提取

2、wand — 基于 ctypes 的简单 ImageMagick 绑定

3、pytesseract — OCR 识别工具

内容反馈

wjw806

粉丝: 17
资源: 32

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip