没有合适的资源？快使用搜索试试~ 我知道了~

文库首页开发技术其它Python批量提取PDF文件中文本的脚本

Python批量提取PDF文件中文本的脚本

pdf

python

脚本

28 下载量 154 浏览量 2020-12-25 06:41:38 上传评论收藏 31KB PDF 举报

温馨提示

试读

1页

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码，供大家参考，具体内容如下首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。 import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf)

资源推荐

资源详情

资源评论

Python批量提取批量提取PDF文件中文本的脚本文件中文本的脚本

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码，供大家参考，具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os

import sys

import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:

pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

os.rename(pdf1, pdf)

print('='*30)

print(pdf)

txt = pdf[:-4] + '.txt'

exe = '"' + sys.executable + '" "'

pdf2txt = os.path.dirname(sys.executable)

pdf2txt = pdf2txt + '\scripts\pdf2txt.py" -o '

try:

#调用命令行工具pdf2txt.py进行转换

#如果pdf加密过可以改写下面的代码

#在-o前面使用-P来指定密码

cmd = exe + pdf2txt + txt + ' ' + pdf

os.popen(cmd)

#转换需要一定时间，一般小文件2秒钟足够了

time.sleep(2)

#输出转换后的文本，前200个字符

with open(txt, encoding='utf8') as fp:

print(fp.read(200))

except:

pass

来源：python小屋

您可能感兴趣的文章您可能感兴趣的文章:python基于pdfminer库提取pdf文字代码实例python实现从pdf文件中提取文本,并自动翻译的方法Python

提取PDF内容的方法(文本、图像、线条等)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

weixin_38622427

粉丝: 0
资源: 951

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Python批量提取PDF文件中文本的脚本

python批量提取pdf表格与文字

Python提取pdf文件目录_Demo源码

python批量打印word、pdf文件，可按文件夹一份份打印

python 实现 pdf 书签读取、批量写入源码

python实现批量修改文件名

提取pdf文件中的文本

Python提取PDF内容的方法(文本、图像、线条等)

python实现PDF中表格转化为Excel的方法

Python-PDFMiner一个用于从PDF文档中抽取信息的工具

Python实现PDF图片文件压缩

Python-将epub文件转换为文本

pdf文件时间+标题提取重命名.zip

python pyqt5 PDF转jpg程序，实现PDF批量转成jpg

python 自动办公- Python一键提取PDF中的表格到Excel.zip

通过python爬虫批量下载PDF文件

Python批量替换脚本

python批量pdf转txt

python批量实现Word文件转换为PDF文件

python批量提取PDF中的表格到Excel文档

PDF文件信息的抽取与分析

Python实现替换文件中指定内容的方法

Python_transPDF:PDF文字内容替换

python替换文件内容

使用python批量读取word文档并整理关键信息到excel表格的实例

python实现从pdf文件中提取文本,并自动翻译的方法

Python实例-毕业项目设计：PDF文档内容提取工具，高效办公自动化

Python批量PDF添加水印、加密

python脚本案例批量文档提取手机号

Linux 中批量提取文件夹下所有目录及文件名称

最新资源