## 0. 摘要
参加了天池的一个pdf简历信息提取的比赛,这里进行回顾、整理和分享
赛题要求从pdf简历中提取出信息,比如说名字,籍贯等。这里搭建了一个BiLSTM-CRF模型,能够从PDF简历中提取出所需的信息。
模型的线上得分是0.727,排名 21/1200+
## 1. 赛题相关
**模型目标**:pdf简历 --> 类别信息
## 2. 思路
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200407184911162.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODA1NTEx,size_16,color_FFFFFF,t_70)
使用python库**pdfminer**,将pdf简历中的文本提取出来。利用json标注文件,对提取出来的文本进行匹配和**BIO标注**,每一个字对应一个标注。最后,将标注后的文本送到BiLSM-CRF模型中进行训练。
## 3. BiLSTM-CRF 模型
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200417140041730.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODA1NTEx,size_16,color_FFFFFF,t_70)
将文本中的每个字进行one-hot编码,经过Embedding层后,每一个字对应一个**字向量**,所以文本可以用一个矩阵表示。将**文本矩阵**输入BiLSTM层,输出中每一个字会对应一个类别概率向量,此类别概率向量表示了该字属于各个类别的概率。所以所有字属于各个类别的概率可以用一个**类别概率矩阵**表示。将此类别概率矩阵输入CRF层,即可得到**得分最高的文本标注序列**。
此处留一个pytorch官方的BiLSTM-CRF教程链接:
https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html#
## 4. 代码地址
**https://github.com/Agwave/PDF-Resume-Information-Extraction**
## 5. 不足
1. 没有利用外部文本来训练语言模型。语言模型的文本只利用了训练集的pdf中的文本。
2. 只使用了字嵌入。中文文本的话还可以结合词嵌入。
没有合适的资源?快使用搜索试试~ 我知道了~
天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、共18个字段
共50个文件
pth:26个
py:8个
json:5个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 77 浏览量
2023-08-21
23:40:17
上传
评论
收藏 50.7MB ZIP 举报
温馨提示
全国大学生电子设计竞赛(National Undergraduate Electronics Design Contest),试题,解决方案及源码。计划或参加电赛的同学可以用来学习提升和参考。程序均是实战案例,经过测试可直接运行。 全国大学生电子设计竞赛(National Undergraduate Electronics Design Contest),试题,解决方案及源码。计划或参加电赛的同学可以用来学习提升和参考。程序均是实战案例,经过测试可直接运行。
资源推荐
资源详情
资源评论
收起资源包目录
天池比赛作品整理。实现从pdf中提取出姓名、出生年月、性别、电话、最高学历、籍贯、落户市县、政治面貌、毕业院校、工作单位、工作内容、职务、项目名称、项目责任、学位、毕业时间、工作时间、项目时间共18个字段。.zip (50个子文件)
res_code
eval.py 5KB
gen_json.py 3KB
util.py 10KB
push_dir
gen_json.py 12KB
test_result.json 80KB
Dockerfile 369B
run.sh 19B
word_to_ix_add_unk_0219.json 32KB
supporting_document
main.ipynb 10KB
wrong_pdf.txt 47KB
log.txt 361KB
train_word_to_tag_0223.json 32KB
word_to_ix_0219_2.json 32KB
word_to_ix_add_unk_0219.json 32KB
long_text_error.txt 8KB
model.py 5KB
requirement.txt 81B
model
model_latest_no_best_0223.pth 3.21MB
model_add_unk_2ep_0219.pth 678KB
model_100emd_100hid_10ep_0220.pth 1.07MB
model_150_best_0223.pth 5.32MB
model_100_all_data_0226.pth 1.08MB
model_100_all_data_0224.pth 1.07MB
model_100_all_data_0301.pth 1.08MB
model_2_epoch_0301.pth 1.08MB
model_70emd_10ep_0220.pth 678KB
model_70emd_70hid_10ep_0220.pth 723KB
model_100emd_100hid_12ep_Adam_clip_0221.pth 3.22MB
model_100emd_100hid_25ep_Adam_clip_0221.pth 3.22MB
model_100_best_0223.pth 3.21MB
model_0222.pth 3.22MB
model_100_all_data_0225.pth 1.08MB
model_100emd_100hid_10ep_Adam_clip_0221.pth 3.22MB
model_100emd_100hid_from10ep_Adam_clip_0222.pth 3.22MB
latest_model.pth 680KB
model_perfect_1_epoch_0226.pth 1.08MB
model_100_all_data_perfect_0227.pth 1.08MB
model_best_0223.pth 3.21MB
model_100emd_2ep_0219.pth 953KB
model_150_latest_no_best_0223.pth 5.32MB
model_perfect_1_epoch_0227.pth 1.08MB
model_0223.pth 3.22MB
model_100_all_data_perfect_0226.pth 1.08MB
debug.py 10KB
train.py 8KB
__pycache__
data_process.cpython-36.pyc 9KB
util.cpython-36.pyc 8KB
model.cpython-36.pyc 4KB
README.md 2KB
data_process.py 13KB
共 50 条
- 1
资源评论
白话机器学习
- 粉丝: 8624
- 资源: 7683
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功