ChineseNRE-master.zip_SemEval2010Task8_人物关系_人物关系抽取_关系抽取id_关系抽取

共10个文件

txt：5个

py：4个

md：1个

版权申诉

人物关系

人物关系抽取

5星 · 超过95%的资源 45 浏览量 2022-07-14 00:03:18 上传评论 1 收藏 20.79MB ZIP 举报

《中文实体关系抽取：基于深度学习的SemEval2010 Task 8实践》实体关系抽取是自然语言处理中的一个重要任务，它旨在从文本中识别出具有特定关系的实体并建立它们之间的联系。在本资源中，我们关注的是中文环境下的实体关系抽取，具体涉及了SemEval2010 Task 8的比赛数据集，该任务主要聚焦于人物关系的识别。这个压缩包“ChineseNRE-master.zip”包含了一套用于人物关系抽取的深度神经网络代码实现，对于理解和应用中文实体关系抽取具有很高的参考价值。 SemEval2010 Task 8是一个国际性的评测活动，其目标是评估不同系统在识别和分类人物关系上的性能。在这个任务中，实体主要指人名，关系则包括但不限于亲属关系、职业关系、合作关系等。参赛者需要开发算法来识别出这些关系，并对每对实体进行关系分类。该压缩包中的"ChineseNRE-master"目录包含了实现这一任务的完整代码框架。通常，这类系统会经过以下步骤： 1. **预处理**：文本需要进行预处理，包括分词、去除停用词、词性标注等，以便于后续的模型处理。在中文环境下，这通常涉及到jieba分词库的应用。 2. **特征提取**：接着，系统会根据预处理后的文本生成特征，如词袋模型、TF-IDF、词向量（如Word2Vec或GloVe）等，为深度学习模型提供输入。 3. **模型构建**：在本项目中，可能会采用深度学习模型，如循环神经网络（RNN）、长短时记忆网络（LSTM）、双向LSTM（BiLSTM）或者Transformer等，结合注意力机制以捕获长距离依赖关系。 4. **训练与优化**：使用SemEval2010 Task 8的数据集进行模型训练，通过反向传播更新参数，可能还会涉及超参数调优，如学习率调整、正则化等。 5. **评估**：模型的性能通过准确率、精确率、召回率和F1分数等指标进行评估，以衡量在未知数据上的表现。这个代码实现为研究者和开发者提供了一个基础平台，他们可以在此基础上进行模型改进，例如引入预训练的BERT模型进行更高效的特征表示，或者利用图神经网络（GNN）来捕捉实体间的复杂结构关系。此外，也可以探索其他技术，如知识图谱嵌入，以增强实体关系的推理能力。 “ChineseNRE-master.zip”提供的资源是深入研究和实践中文实体关系抽取的理想起点，它不仅展示了深度学习在该领域的应用，也为进一步的学术研究和实际应用提供了宝贵的经验和参考资料。通过学习和理解这套代码，开发者可以更好地掌握如何运用深度学习技术解决中文文本中的实体关系抽取问题。

资源推荐

资源详情

资源评论

收起资源包目录

ChineseNRE-master.zip （10个子文件）

ChineseNRE-master

data

SemEval2010_task8_all_data

data_util.py 5KB

TRAIN_FILE.TXT 1.33MB

TEST_FILE_FULL.TXT 463KB

people-relation

data_util.py 5KB

train.txt 30.89MB

relation2id.txt 119B

train.py 5KB

BiLSTM_ATT.py 3KB

vec.txt 14.63MB

README.md 2KB

# ChineseNRE 本项目使用 + python 2.7 + pytorch 0.4.0 中文实体关系抽取，对实体关系抽取不了解的可以先看<a href="https://blog.csdn.net/buppt/article/details/82961979">这篇文章</a>。顺便求star～ ## 数据中文实体关系抽取数据实在太难找了，data中是忘记在哪里找的人物关系数据集，一共11+1种关系，数据质量不太好，但也找不到其他的了。同学们如果有其他的数据集求分享～ ``` 梅葆玥梅兰芳父母坎坷经历梅葆玥之家庭合影1961年，梅兰芳先生病逝，葆玥、葆玖姐弟俩继承父亲的遗志，挑起了梅剧团的重担 ``` 数据格式为: 实体1 实体2 关系句子。虽然叫中文实体关系抽取，还是增加了一个英文数据集SemEval2010_task8，简单做了下数据处理，这是免费的公开数据集，其他的好像都要dollar了。。 ## 训练模型使用的是lstm+attention模型。特征使用词向量+位置向量。训练前先运行data文件夹中的 `data_util.py` 文件，将数据处理成pkl文件供模型使用。运行`python train.py`即可开始训练，可以在`train.py`文件中设置epoch、batch等参数，运行结束模型会储存到model文件夹中，可以在训练好的模型基础上继续训练。可以运行`python train.py pretrained`使用预训练的词向量进行训练。vec.txt是一个训练好的词向量的例子，可以修改使用更加优秀的预训练词向量。 ## 准确率奈何实验室没有服务器，只能用自己电脑的cpu跑了一小部分数据，结果如下。 | 准确率 | 召回率 | F1值 | | ------ | ------ | ------ | | 64.08% | 64.59% | 64.33% | ## 参考 Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification ## 更新日志 2018-10-7 第一版，不定期进行修改与优化。 2018-10-9 添加准确率、召回率、f值的计算，将model从`train.py`中分离。 2018-10-10 添加SemEval2010_task8数据，以及一些小修改。 2018-10-18 增加预训练的词向量，修改bug。

评论收藏

内容反馈

版权申诉