没有合适的资源?快使用搜索试试~ 我知道了~
基于python的docx模块处理word和WPS的docx格式文件方式
20 下载量 94 浏览量
2020-12-20
16:11:37
上传
评论 1
收藏 66KB PDF 举报
温馨提示


试读
2页
Python docx module for Word or WPS processing 本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入excel表格。 首先安装docx的python模块: pip install python-docx 由于处理的为中文和符号,改成utf-8编码格式 import sys reload(sys) sys.setdefaultencoding('utf-8') from docx import Document import pandas as pd # 打开文件 doc = Document(ur'test_1.docx')
资源推荐
资源详情
资源评论















基于基于python的的docx模块处理模块处理word和和WPS的的docx格式文件方格式文件方
式式
Python docx module for Word or WPS processing
本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入excel表格。
首先安装首先安装docx的的python模块:模块:
pip install python-docx
由于处理的为中文和符号,改成utf-8编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from docx import Document
import pandas as pd
# 打开文件
doc = Document(ur'test_1.docx')
为了处理word中以对勾形式勾选的项目,采用下面 的方法
1、十字路口 √ 2、丁字路口 3、环形路口 4、人行立交
# 取出对号勾选的项目
print doc.tables[0].rows[3].cells[2].text
print doc.tables[0].rows[3].cells[2].text.split(u'√')[1].strip().split(' ')[0][2:] '√' in doc.tables[0].rows[3].cells[2].text # 这个语句可以测试是否含有对勾,
# 有的话就取出对勾后面的item,否则直接返回填空的text
True
num_rows = len(doc.tables[0].rows)
print num_rows
xls = pd.read_csv(ur’output.csv’)
print xls.columns[0] diction = {}
# 找到每个excel文档中需要被记录的键值在docx文档表格中的位置
for xlskey in xls.columns:
for row_id in range(num_rows):
row = doc.tables[0].rows[row_id] for cell_id in range(len(row.cells)):
if row.cells[cell_id].text.strip() == xlskey.strip():
diction[xlskey] = [row_id, cell_id]
# 查看一下获得的键值位置
for key in list(diction.keys()):
print key, diction[key]
楼层数 [21, 1]
宗地形状 [4, 1]
使用权取得时间 [14, 1]
采光通风状况 [19, 1]
已使用年限 [21, 4]
建筑朝向 [7, 1]
房屋结构 [17, 1]
交叉路口形式 [3, 1]
临街状况 [8, 1]
资源评论


weixin_38725531
- 粉丝: 5
- 资源: 874
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
