Python办公自动化之PDF篇笔记.zip资源-CSDN文库

共1个文件

pdf：1个

版权申诉

5 浏览量 2023-09-16 02:08:54 上传评论收藏 487KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Python办公自动化之PDF篇笔记.zip （1个子文件）

Python办公自动化之PDF篇笔记.pdf 530KB

1、找到pip3.exe所在的文件夹，复制路径

我的路径是：

Users

AppData

Local

Programs

Python

Python37

Scripts

2、按Win+R,输入CMD确定

3、进入后，先输入cd 路径回车

4、输入 pip3 install pypdf2 回车

5、输入 pip3 install pdfplumber 回车

6、输入pip3 install pymupdf 回车

安装

2020

年

月

日

10:03

分区 PDF 的第 1 页

Python基础课程PPT笔记184页 with语句

前景回顾：

with

语句

2020

年

月

日

20:08

分区

PDF

的第

页

pdfminer3k：主要用于读取 pdf 中的文本，代码太复杂

pdfminer 是pdfminer3k在Python2x时代的版本，对于表格的处理非常的不友好，能提取出文字，但是没有格式

tabula-py 是专门用来提取PDF表格数据的，同时支持PDF导出为CSV、Excel格式，但是这工具是用 java 写的，依赖 java7/8。tabula-py 就是对它做了一

层 python 的封装，所以也依赖 java7/8。

pypdf2 网上代码比较多，但是读出来有时是乱码

pdfplumber 是按页来处理 pdf 的，可以获得页面的所有文字，并且提供的单独的方法用于提取表格，对于合并单元格等提取也存在问题。相比前面4个稍好一

点。

解析PDF文本及表格的几种库：

2020年6月15日

21:08

分区 PDF 的第 3 页

一、对其中一页提取

import pdfplumber

路径 = r'c:/文字.pdf'

首页 = pdf.pages[0] # 指定页码

文本 = 页码.extract_text() # 提取文本

文件 = open('c:/1.txt', mode='a') # 新建文件，追加形式写入

文件.write(文本) # 将文本写入到文件

with pdfplumber.open(路径) as pdf:

二、对所有页面提取

import pdfplumber

路径 = r'c:/文字.pdf'

with pdfplumber.open(路径) as pdf:

for 页码 in pdf.pages:

文本 = 页码.extract_text()

文件 = open('c:/1.txt', mode='a')

文件.write(文本)

01.从PDF中提取文本

2020年6月15日

20:18

分区

PDF

的第

页

一、保存成Csv文件

import pdfplumber

import pandas as pd

文件 = r'c:/表1.pdf'

with pdfplumber.open(文件) as pdf:

for 页码 in pdf.pages:

for 表格 in 页码.extract_tables():

数据 = pd.DataFrame(表格[1:],columns=表格[0])

数据.to_csv('c:/1.csv',mode='a',encoding='ANSI')

二、保存成Excel文件

import pdfplumber

import pandas as pd

a = r'c:/表1.pdf' # 混合.pdf

count = 1

with pdfplumber.open(a) as pdf:

with pd.ExcelWriter('c:/1.xlsx') as writer:

for 页码 in pdf.pages:

for 表格 in 页码.extract_tables():

数据 = pd.DataFrame(表格[1:],columns=表格[0])

数据.to_excel(writer,sheet_name=f'sheet{count}')

count += 1

02.从PDF中提取表格

2020

年

月

日

20:55

分区

PDF

的第

页

评论收藏

内容反馈

版权申诉

码云笔记

粉丝: 2w+
资源: 5844

Python办公自动化之PDF篇笔记.zip

Python办公自动化之Excel篇笔记.zip

Python办公自动化之PDF篇笔记

Python办公自动化之PPT篇.zip

Python学习笔记 .pdf

python自动化办公手册.pdf

Python办公自动化.pdf

Python办公自动化教程Word篇.pdf

Python 笔记源码——内含python后端&机器学习等.zip

5.100个Python源码实例办公自动化.zip

Python工具箱.zip - 办公自动化、多态文件搜索、高级加密

9.python查看唯一值.zip

5.python数据表检查.zip

4.python创建数据表.zip

2.python生成数据表.zip

6.python数据表信息.zip

3.python导入数据表.zip

python项目——图片批量处理器.zip

7.python查看数据格式.zip

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

农村公交与异构无人机协同配送优化

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2024五一数学建模.txt2024五一数学建模.txt2024五一数学建模.txt2024五一数学建模.txt

4个亲测好用的ChatGPT4渠道

2023泛娱乐社交出海手册-ZEGO即构科技

最新资源