利用python将图片版PDF转文字版PDF_python识别合同pdf并找出需求文字资源-CSDN文库

120 浏览量 2020-09-19 10:26:54 上传评论 1 收藏 53KB PDF 举报

今天为大家介绍一下如何使用利用python将图片版PDF转文字版PDF，这里我们需要用到python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit ### 使用Python将图片版PDF转换为文字版PDF 在日常工作中，我们经常遇到需要处理PDF文档的情况。有时候，这些PDF文档是由图片组成的，这给文本提取、编辑或搜索带来了很大的不便。本文将详细介绍如何利用Python将图片版PDF转换为可编辑、可搜索的文字版PDF。我们将使用Python 3.6、PyPDF2、ghostscript、PythonMagick、百度文字识别服务以及pdfkit等工具来完成这一任务。 #### 安装所需工具确保已经安装了Python 3.6。接下来按照以下步骤安装所需的库和工具： 1. **安装ghostscript**：ghostscript是一个强大的渲染引擎，可以处理多种格式的文档。访问[官方网站](https://ghostscript.com/download/gsdnld.html)下载并安装适用于您操作系统的版本。 2. **安装wkhtmltopdf**：虽然本教程中并未直接使用此工具，但它与pdfkit密切相关，是生成HTML到PDF转换的关键组件。可以从[官方网站](https://wkhtmltopdf.org/downloads.html)下载并安装它。 3. **安装Python库**： - 使用pip安装PyPDF2、ghostscript、baidu-aip和pdfkit： ``` pip install PyPDF2 pip install ghostscript pip install baidu-aip pip install pdfkit ``` 4. **安装PythonMagick**：这是一个用于处理图像的强大库，特别适合于将PDF页面转换为图像格式（如jpg）。由于它没有直接通过pip发布，需要从第三方源下载。具体步骤如下： - 访问[这个链接](https://www.lfd.uci.edu/~gohlke/pythonlibs/)，找到合适的whl文件（例如`PythonMagick-0.9.13-cp36-cp36m-win_amd64.whl`）并下载。 - 进入下载目录，并使用pip安装： ``` cd 下载目录 pip install PythonMagick-0.9.13-cp36-cp36m-win_amd64.whl ``` #### 转换流程转换流程分为几个关键步骤： 1. **将图片版PDF转换为单个图像文件**：首先使用PythonMagick将每一页PDF转换为一个图像文件（如jpg）。 2. **使用OCR技术识别图像中的文字**：利用百度文字识别服务（AipOcr）对每个图像进行光学字符识别，提取其中的文字。 3. **将提取的文字重新构建为PDF文档**：使用PyPDF2和pdfkit等工具将提取的文字重新组织成一个新的、包含文本的PDF文档。 #### 示例代码下面是一些示例代码，帮助您理解整个过程： ##### 使用PyPDF2处理PDF文档 ```python # 导入必要的库 from PyPDF2 import PdfFileReader, PdfFileWriter # 打开原始PDF文档 pdf_input = PdfFileReader(open('原始PDF路径', 'rb')) # 获取PDF文档的总页数 page_count = pdf_input.getNumPages() # 获取PDF文档的某一页 page = pdf_input.getPage(3) # 创建一个新的PDF文档对象 pdf_output = PdfFileWriter() # 将当前页面添加到新的PDF文档中 pdf_output.addPage(page) # 将新PDF文档保存到指定位置 pdf_output.write(open('新PDF路径', 'wb')) ``` ##### 使用PythonMagick将PDF页面转换为图像 ```python # 导入PythonMagick库 import PythonMagick # 打开PDF文件 pdf = PythonMagick.Image('原始PDF路径') # 将每一页转换为图像 for i in range(pdf.sequenceLength()): page = pdf.sequence[i] page.write('page{}.jpg'.format(i + 1)) ``` ##### 使用百度文字识别服务进行OCR ```python # 导入baidu-aip库 from aip import AipOcr # 设置应用信息 APP_ID = '??' API_KEY = '??' SECRET_KEY = '??' # 创建AipOcr对象 client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 定义读取文件的函数 def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() # 读取本地图片 image = get_file_content('page1.jpg') # 设置可选参数 options = {} options["language_type"] = "CHN_ENG" options["detect_direction"] = "true" options["detect_language"] = "true" options["probability"] = "true" # 使用OCR识别图片中的文字 result = client.basicGeneral(image, options) # 打印结果 print(result) ``` ##### 使用pdfkit将文字重建为PDF文档 ```python # 导入库 import pdfkit # 假设我们已经有了一个字符串形式的HTML内容 html_content = '<html><body>' + result['words_result'][0]['words'] + '</body></html>' # 将HTML内容转换为PDF pdfkit.from_string(html_content, 'output.pdf') ``` 通过上述步骤和代码示例，您可以将图片版PDF转换为文字版PDF，从而便于进一步处理或编辑。

资源详情

资源评论

利用利用python将图片版将图片版PDF转文字版转文字版PDF

今天为大家介绍一下如何使用利用python将图片版PDF转文字版PDF，这里我们需要用到

python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit

图片版PDF无法复制,转化成文字版的PDF后使用更方便.

我们需要用到python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit.

安装

安装python3.6 略

安装ghostscript

https://ghostscript.com/download/gsdnld.html

安装wkhtmltopdf

https://wkhtmltopdf.org/downloads.html

pip安装PyPDF2,ghostscript,baidu-aip,pdfkit

pip install PyPDF2

pip install ghostscript

pip install baidu-aip

pip install pdfkit

pip安装PythonMagick

https://www.lfd.uci.edu/~gohlke/pythonlibs/

cd 下载目录

pip install PythonMagick‑0.9.13‑cp36‑cp36m‑win_amd64.whl

pypdf2用于拆分和合并PDF

示例代码如下:

#导入PdfFileReader和PdfFileWriter

from PyPDF2 import PdfFileReader, PdfFileWriter

#获取一个pdf对象

pdf_input = PdfFileReader(open(r'pdf路径', 'rb'))

#获取pdf页数

page_count = pdf_input.getNumPages()

#获取pdf第四页的内容

page = pdf_input.getPage(3)

page['/Contents']

#获取一个pdfWriter对象

pdf_output = PdfFileWriter()

# 将一个 PageObject 加入到 PdfFileWriter 中

pdf_output.addPage(page)

#把新pdf保存

pdf_output.write(open(r'新pdf路径','wb'))

PythonMagick用于将单页PDF转化为jpg

百度云-文字识别-python SDK

每天有500次免费的识别

示例代码如下:

#导入baidu-aip

from aip import AipOcr

#https://console.bce.baidu.com/#/index/overview

#产品服务->人工智能->文字识别->创建应用

#获取以下三个值

APP_ID = '??'

API_KEY = '??'

SECRET_KEY = '?? '

#新建一个AipOcr

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

#读取本地图片的函数

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read()

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

利用python将图片版PDF转文字版PDF

评论0

最新资源

利用python将图片版PDF转文字版PDF

评论0

最新资源

相关推荐

python实现pdf转word

pdf转文字和图片

python批量pdf转txt

python pdf转文本 转图片 程序

基于Python实现对PDF文件的OCR识别

PDF文件转图片工具（附源码）

python实现pdf转换成word/txt纯文本文件

Python-将任何图像转换成文本TXT

python示例.第三版.修订版.614页完整版.文字版PDF

python核心编程英文原版（第三版）高清文字完整版PDF

python入门教程pdf-python基础教程第4版pdf.pdf

将cad文件批量输出为PDF

Python Web开发，高清PDF文字版，带书签

Python Pocket Reference, 第五版-带书签目录超清文字版.pdf

Python3标准库中文PDF版本

[深入Python].(Dive.Into.Python).Mark.Pilgrim.文字版.pdf

python实现简单的文字识别

提取pdf文件中的文本

python cookbook(第3版) 中文 文字完整PDF版

通过python爬虫批量下载PDF文件

python基础教程 第三版 中文 高清 pdf

python教程pdf合集

Python_Programming.pdf

Head_first_python完整中文版+代码（新版超清扫描）

深入Python3-带书签高清文字pdf版本

python pdf转文本转图片程序

python cookbook(第3版) 中文文字完整PDF版

python基础教程第三版中文高清 pdf