没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。 import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf)
资源推荐
资源详情
资源评论
Python批量提取批量提取PDF文件中文本的脚本文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下
首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。
import os
import sys
import time
pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))
for pdf1 in pdfs:
pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
os.rename(pdf1, pdf)
print('='*30)
print(pdf)
txt = pdf[:-4] + '.txt'
exe = '"' + sys.executable + '" "'
pdf2txt = os.path.dirname(sys.executable)
pdf2txt = pdf2txt + '\scripts\pdf2txt.py" -o '
try:
#调用命令行工具pdf2txt.py进行转换
#如果pdf加密过可以改写下面的代码
#在-o前面使用-P来指定密码
cmd = exe + pdf2txt + txt + ' ' + pdf
os.popen(cmd)
#转换需要一定时间,一般小文件2秒钟足够了
time.sleep(2)
#输出转换后的文本,前200个字符
with open(txt, encoding='utf8') as fp:
print(fp.read(200))
except:
pass
来源:python小屋
您可能感兴趣的文章您可能感兴趣的文章:python基于pdfminer库提取pdf文字代码实例python实现从pdf文件中提取文本,并自动翻译的方法Python
提取PDF内容的方法(文本、图像、线条等)
资源评论
weixin_38622427
- 粉丝: 0
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 各种排序算法java实现的源代码.zip
- 金山PDF教育版编辑器
- 基于springboot+element的校园服务平台源代码项目包含全套技术资料.zip
- 自动化应用驱动的容器弹性管理平台解决方案
- 各种排序算法 Python 实现的源代码
- BlurAdmin 是一款使用 AngularJs + Bootstrap实现的单页管理端模版,视觉冲击极强的管理后台,各种动画效果
- 基于JSP+Servlet的网上书店系统源代码项目包含全套技术资料.zip
- GGJGJGJGGDGGDGG
- 基于SpringBoot的毕业设计选题系统源代码项目包含全套技术资料.zip
- Springboot + mybatis-plus + layui 实现的博客系统源代码全套技术资料.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功