######################################
BosonNLP命名实体识别数据
######################################
命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤。
在BosonNLP命名实体的标注中,文本采用UTF-8进行编码,每行为一个段落标注,共包括2000段落。所有的实体以如下的格式进行标注:
{{实体类型:实体文本}}
标注的实体类别包括以下6种:
time: 时间
location: 地点
person_name: 人名
org_name: 组织名
company_name: 公司名
product_name: 产品名
例:此次{{location:中国}}个展,{{person_name:苏珊?菲利普斯}}将与她80多岁高龄的父亲一起合作,哼唱一首古老的{{location:威尔士}}民歌{{product_name:《白蜡林》}}。届时在{{location:画廊大厅}}中将安放6个音箱进行播放,艺术家还特意回到家乡{{location:格拉斯哥}},同父亲一起在{{org_name:中国音乐学院}}里为作品录制了具有{{location:中国}}元素的音乐片段。
来源:
http://bosonnlp.com
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于Pytorch的命名实体识别-信息抽取python源码(支持中英文数据+LSTM+CRF等多种模型)+数据集.zipdata文件夹中有三个开源数据集可供使用,玻森数据 (https://bosonnlp.com) 、1998年人民日报标注数据、MSRA微软亚洲研究院开源数据。其中boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名、地名、组织名三种实体类型。先运行数据中的python文件处理数据,供模型使用。 本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于Pytorch的命名实体识别-信息抽取python源码(支持中英文数据+LSTM+CRF等多种模型)+数据集.zipdata文件夹中有三个开源数据集可供使用,玻森数据 (https://bosonnlp.com) 、1998年人民日报标注数据、MSRA微软亚洲研究院开源数据。其中boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名、地名、组织名三种实体类
资源推荐
资源详情
资源评论
收起资源包目录
基于Pytorch的命名实体识别-信息抽取python源码(支持中英文数据+LSTM+CRF等多种模型)+数据集.zip (23个子文件)
ChineseNER-master
data
boson
data_util.py 4KB
origindata.txt 1.78MB
license.txt 2KB
readme.txt 981B
renMinRiBao
data_renmin_word.py 5KB
renmin.txt 10.18MB
MSRA
train2pkl.py 4KB
test1.txt 514KB
link.txt 49B
testright1.txt 564KB
train1.txt 9.99MB
test.png 92KB
test2.png 86KB
使用说明.txt 2KB
tensorflow
utils.py 7KB
test1.txt 514KB
bilstm_crf.py 3KB
vec.txt 14.63MB
Batch.py 2KB
train.py 3KB
pytorch
BiLSTM_CRF.py 7KB
train.py 2KB
resultCal.py 2KB
共 23 条
- 1
资源评论
盈梓的博客
- 粉丝: 7037
- 资源: 1605
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功