# 通用信息抽取 UIE(Universal Information Extraction)
**目录**
- [1. 模型简介](#模型简介)
- [2. 应用示例](#应用示例)
- [3. 开箱即用](#开箱即用)
- [4. 轻定制功能](#轻定制功能)
- [5. CCKS比赛](#CCKS比赛)
<a name="模型简介"></a>
## 1. 模型简介
[UIE(Universal Information Extraction)](https://arxiv.org/pdf/2203.12277.pdf):Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力,PaddleNLP借鉴该论文的方法,基于ERNIE 3.0知识增强预训练模型,训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
<div align="center">
<img src=https://user-images.githubusercontent.com/40840292/167236006-66ed845d-21b8-4647-908b-e1c6e7613eb1.png height=400 hspace='10'/>
</div>
#### UIE的优势
- **使用简单**:用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。**实现开箱即用,并满足各类信息抽取需求**。
- **降本增效**:以往的信息抽取技术需要大量标注数据才能保证信息抽取的效果,为了提高开发过程中的开发效率,减少不必要的重复工作时间,开放域信息抽取可以实现零样本(zero-shot)或者少样本(few-shot)抽取,**大幅度降低标注数据依赖,在降低成本的同时,还提升了效果**。
- **效果领先**:开放域信息抽取在多种场景,多种任务上,均有不俗的表现。
<a name="应用示例"></a>
## 2. 应用示例
UIE不限定行业领域和抽取目标,以下是一些零样本行业示例:
- 医疗场景-专病结构化
![image](https://user-images.githubusercontent.com/40840292/169017581-93c8ee44-856d-4d17-970c-b6138d10f8bc.png)
- 法律场景-判决书抽取
![image](https://user-images.githubusercontent.com/40840292/169017863-442c50f1-bfd4-47d0-8d95-8b1d53cfba3c.png)
- 金融场景-收入证明、招股书抽取
![image](https://user-images.githubusercontent.com/40840292/169017982-e521ddf6-d233-41f3-974e-6f40f8f2edbc.png)
- 公安场景-事故报告抽取
![image](https://user-images.githubusercontent.com/40840292/169018340-31efc1bf-f54d-43f7-b62a-8f7ce9bf0536.png)
- 旅游场景-宣传册、手册抽取
![image](https://user-images.githubusercontent.com/40840292/169018113-c937eb0b-9fd7-4ecc-8615-bcdde2dac81d.png)
<a name="开箱即用"></a>
## 3. 开箱即用
```paddlenlp.Taskflow```提供通用信息抽取、评价观点抽取等能力,可抽取多种类型的信息,包括但不限于命名实体识别(如人名、地名、机构名等)、关系(如电影的导演、歌曲的发行时间等)、事件(如某路口发生车祸、某地发生地震等)、以及评价维度、观点词、情感倾向等信息。用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。**实现开箱即用,并满足各类信息抽取需求**
#### 支持多场景信息抽取任务
- 命名实体识别
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。
例如抽取的目标实体类型是"时间"、"选手"和"赛事名称", schema构造如下:
```text
['时间', '选手', '赛事名称']
```
预测:
```python
>>> from pprint import pprint
>>> from paddlenlp import Taskflow
>>> schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
>>> ie = Taskflow('information_extraction', schema=schema)
>>> pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!")) # Better print results using pprint
[{'时间': [{'end': 6,
'probability': 0.9857378532924486,
'start': 0,
'text': '2月8日上午'}],
'赛事名称': [{'end': 23,
'probability': 0.8503089953268272,
'start': 6,
'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
'选手': [{'end': 31,
'probability': 0.8981548639781138,
'start': 28,
'text': '谷爱凌'}]}]
```
例如抽取的目标实体类型是"肿瘤的大小"、"肿瘤的个数"、"肝癌级别"和"脉管内癌栓分级", schema构造如下:
```text
['肿瘤的大小', '肿瘤的个数', '肝癌级别', '脉管内癌栓分级']
```
在上例中我们已经实例化了一个`Taskflow`对象,这里可以通过`set_schema`方法重置抽取目标。
预测:
```python
>>> schema = ['肿瘤的大小', '肿瘤的个数', '肝癌级别', '脉管内癌栓分级']
>>> ie.set_schema(schema)
>>> pprint(ie("(右肝肿瘤)肝细胞性肝癌(II-III级,梁索型和假腺管型),肿瘤包膜不完整,紧邻肝被膜,侵及周围肝组织,未见脉管内癌栓(MVI分级:M0级)及卫星子灶形成。(肿物1个,大小4.2×4.0×2.8cm)。"))
[{'肝癌级别': [{'end': 20,
'probability': 0.9243267447402701,
'start': 13,
'text': 'II-III级'}],
'肿瘤的个数': [{'end': 84,
'probability': 0.7538413804059623,
'start': 82,
'text': '1个'}],
'肿瘤的大小': [{'end': 100,
'probability': 0.8341128043459491,
'start': 87,
'text': '4.2×4.0×2.8cm'}],
'脉管内癌栓分级': [{'end': 70,
'probability': 0.9083292325934664,
'start': 67,
'text': 'M0级'}]}]
```
- 关系抽取
关系抽取(Relation Extraction,简称RE),是指从文本中识别实体并抽取实体之间的语义关系,进而获取三元组信息,即<主体,谓语,客体>。
例如以"竞赛名称"作为抽取主体,抽取关系类型为"主办方"、"承办方"和"已举办次数", schema构造如下:
```text
{
'竞赛名称': [
'主办方',
'承办方',
'已举办次数'
]
}
```
预测:
```python
>>> schema = {'竞赛名称': ['主办方', '承办方', '已举办次数']} # Define the schema for relation extraction
>>> ie.set_schema(schema) # Reset schema
>>> pprint(ie('2022语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办,已连续举办4届,成为全球最热门的中文NLP赛事之一。'))
[{'竞赛名称': [{'end': 13,
'probability': 0.7825402622754041,
'relations': {'主办方': [{'end': 22,
'probability': 0.8421710521379353,
'start': 14,
'text': '中国中文信息学会'},
{'end': 30,
'probability': 0.7580801847701935,
'start': 23,
'text': '中国计算机学会'}],
'已举办次数': [{'end': 82,
'probability': 0.4671295049136148,
'start': 80,
'text': '4届'}],
'承办方': [{'end': 39,
'probability': 0.8292706618236352,
'start': 35,
没有合适的资源?快使用搜索试试~ 我知道了~
Python实现的文本关系抽取工具源代码,文本关系抽取结果为三元组,基于HanLP进行实体识别
共66个文件
py:35个
md:16个
txt:4个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 3 下载量 76 浏览量
2023-09-18
10:12:38
上传
评论
收藏 1.76MB ZIP 举报
温馨提示
实体关系抽取结果是得到三元组(triple),基于HanLP进行实体识别(ner)、语义角色标注(srl)和依存句法分析(dep),得到关系三元组。 event: 施事者,谓语主词,受事者三元组 svo: 主谓宾三元组 keyword: 关键词 freq: 高频词 ner: 实体词 coexist: 实体共现词 ner_keyword: 实体与关键词的关联词
资源推荐
资源详情
资源评论
收起资源包目录
relext-main.zip (66个子文件)
relext-main
relext
utils.py 19KB
__init__.py 242B
evaluate.py 3KB
version.py 22B
uie
__init__.py 80B
seq2struct
utils.py 15KB
__init__.py 46B
data_collator.py 19KB
t5_bert_tokenizer.py 6KB
process_data.py 24KB
README.md 9KB
run_seq2struct.py 17KB
config
multi-task-duuie.yaml 3KB
evaluation
sel2record.py 37KB
__init__.py 73B
scorer.py 24KB
constants.py 1KB
show_graph.py 2KB
uie_predictor.py 25KB
information_extraction.py 916B
finetune.py 8KB
doccano.md 12KB
graph.py 1KB
relation_extraction.py 13KB
doccano.py 6KB
sentence_parser.py 3KB
uie_model.py 2KB
README.md 27KB
keywords_textrank.py 4KB
setup.py 1KB
LICENSE 11KB
tests
test_base.py 1KB
test_issue.py 350B
test_relation_extract.py 8KB
test_uie_model.py 2KB
test_segment.py 5KB
CONTRIBUTING.md 511B
examples
training_uie_model_demo.py 2KB
data
dev.txt 3KB
doccano_ext.json 16KB
test.txt 3KB
train.txt 22KB
article_triples_extract_demo.py 12KB
relation_extract_demo.py 475B
information_extract_demo.py 7KB
docs
wechat.jpeg 40KB
05-classification-models.md 19KB
06-classification-data-formats.md 9KB
srl_cpb.md 3KB
15-ner-minimal-start.md 2KB
12-ner-specifics.md 4KB
14-ner-data-formats.md 8KB
srl_propbank.md 2KB
dep_sd_zh.md 5KB
pos_pku.md 19KB
07-binary-classification.md 2KB
imgs
南京胖哥事件.png 675KB
rel.png 10KB
雷洋嫖娼事件.png 284KB
13-ner-model.md 10KB
RelExt_paper.pdf 464KB
requirements.txt 55B
.gitignore 2KB
static
VIS
dist
vis.css 29KB
vis.js 1.42MB
README.md 13KB
共 66 条
- 1
资源评论
- IT先疯(我是大学牲)2024-03-12资源内容总结地很全面,值得借鉴,对我来说很有用,解决了我的燃眉之急。
- abljk2024-04-15资源很受用,资源主总结的很全面,内容与描述一致,解决了我当下的问题。
- 爱看戏的小猴子2023-10-10资源内容详细全面,与描述一致,对我很有用,有一定的使用价值。
云哲-吉吉2021
- 粉丝: 3945
- 资源: 1129
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功