天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、共18个字段资源-CSDN文库

共50个文件

pth：26个

py：8个

json：5个

版权申诉

源码

77 浏览量 2023-08-21 23:40:17 上传评论收藏 50.7MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。.zip （50个子文件）

res_code

eval.py 5KB

gen_json.py 3KB

util.py 10KB

push_dir

gen_json.py 12KB

test_result.json 80KB

Dockerfile 369B

run.sh 19B

word_to_ix_add_unk_0219.json 32KB

supporting_document

main.ipynb 10KB

wrong_pdf.txt 47KB

log.txt 361KB

train_word_to_tag_0223.json 32KB

word_to_ix_0219_2.json 32KB

word_to_ix_add_unk_0219.json 32KB

long_text_error.txt 8KB

model.py 5KB

requirement.txt 81B

model

model_latest_no_best_0223.pth 3.21MB

model_add_unk_2ep_0219.pth 678KB

model_100emd_100hid_10ep_0220.pth 1.07MB

model_150_best_0223.pth 5.32MB

model_100_all_data_0226.pth 1.08MB

model_100_all_data_0224.pth 1.07MB

model_100_all_data_0301.pth 1.08MB

model_2_epoch_0301.pth 1.08MB

model_70emd_10ep_0220.pth 678KB

model_70emd_70hid_10ep_0220.pth 723KB

model_100emd_100hid_12ep_Adam_clip_0221.pth 3.22MB

model_100emd_100hid_25ep_Adam_clip_0221.pth 3.22MB

model_100_best_0223.pth 3.21MB

model_0222.pth 3.22MB

model_100_all_data_0225.pth 1.08MB

model_100emd_100hid_10ep_Adam_clip_0221.pth 3.22MB

model_100emd_100hid_from10ep_Adam_clip_0222.pth 3.22MB

latest_model.pth 680KB

model_perfect_1_epoch_0226.pth 1.08MB

model_100_all_data_perfect_0227.pth 1.08MB

model_best_0223.pth 3.21MB

model_100emd_2ep_0219.pth 953KB

model_150_latest_no_best_0223.pth 5.32MB

model_perfect_1_epoch_0227.pth 1.08MB

model_0223.pth 3.22MB

model_100_all_data_perfect_0226.pth 1.08MB

debug.py 10KB

train.py 8KB

__pycache__

data_process.cpython-36.pyc 9KB

util.cpython-36.pyc 8KB

model.cpython-36.pyc 4KB

README.md 2KB

data_process.py 13KB

## 0. 摘要参加了天池的一个pdf简历信息提取的比赛，这里进行回顾、整理和分享赛题要求从pdf简历中提取出信息，比如说名字，籍贯等。这里搭建了一个BiLSTM-CRF模型，能够从PDF简历中提取出所需的信息。模型的线上得分是0.727，排名 21/1200+ ## 1. 赛题相关 **模型目标**：pdf简历 --> 类别信息 ## 2. 思路 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200407184911162.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODA1NTEx,size_16,color_FFFFFF,t_70) 使用python库**pdfminer**，将pdf简历中的文本提取出来。利用json标注文件，对提取出来的文本进行匹配和**BIO标注**，每一个字对应一个标注。最后，将标注后的文本送到BiLSM-CRF模型中进行训练。 ## 3. BiLSTM-CRF 模型 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200417140041730.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODA1NTEx,size_16,color_FFFFFF,t_70) 将文本中的每个字进行one-hot编码，经过Embedding层后，每一个字对应一个**字向量**，所以文本可以用一个矩阵表示。将**文本矩阵**输入BiLSTM层，输出中每一个字会对应一个类别概率向量，此类别概率向量表示了该字属于各个类别的概率。所以所有字属于各个类别的概率可以用一个**类别概率矩阵**表示。将此类别概率矩阵输入CRF层，即可得到**得分最高的文本标注序列**。此处留一个pytorch官方的BiLSTM-CRF教程链接： https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html# ## 4. 代码地址 **https://github.com/Agwave/PDF-Resume-Information-Extraction** ## 5. 不足 1. 没有利用外部文本来训练语言模型。语言模型的文本只利用了训练集的pdf中的文本。 2. 只使用了字嵌入。中文文本的话还可以结合词嵌入。

评论收藏

内容反馈

版权申诉