没有合适的资源?快使用搜索试试~
我知道了~
文库首页
人工智能
机器学习
自然语言处理语料库标注集以及符号说明
自然语言处理语料库标注集以及符号说明
自然语言处理
词性标注
命名实体标注
中文组块标注
语料库标注
3星
· 超过75%的资源
需积分: 22
73 下载量
166 浏览量
2017-12-09
14:09:40
上传
评论
1
收藏
165KB
DOCX
举报
温馨提示
立即下载
花费大量时间搜集的自然语言处理语料库标注集,包括词性标注集、命名实体识别BIO标注、中文组块分析chunk标记。
资源详情
资源评论
这周
主要
了解
自然
语言
处理
基础
工作
中词
性标
注、
命名
实体
识别
、中
文组
块分
析的
一般
标
记方法。其次,在
dblp
上继续寻找事件抽取相关的好论文。
1.
词性标注集
哈工大
L
TP
采用的
863
词性标注集
计算
所
汉语
词
性标
记
集(
共
计
99
个
,
22
个一
类
,
66
个
二
类,
1
1
个
三
类)
主
要用
于
中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。
详细列表如下:
本内容试读结束,
登录后
可阅读更多
下载后可阅读完整内容,剩余2页未读,
立即下载
评论
收藏
内容反馈
立即下载
评论3
查看其他2条评论
去评论
Sheroshine
2018-12-19
内容很少,连个概述都算不上。
最新资源
yml文件关键词自动可视化替换.zip
Go资源ss.docx
算法部署-使用OpenVINO+C++部署YOLOX+YOLOV5+V8+V9目标检测算法-支持fp32+fp16+int8推理
Visual Basic资源.docx
烽火服务器 3108raid卡重做raid0
Scratch资源.docx
Delphi资源.docx
Ruby资源.docx
macOS Big Sur 添加麦克风,摄像头权限给应用
Rust资源.docx
wustjk124
粉丝: 12
资源:
19
私信
上传资源 快速赚钱
前往需求广场,查看用户热搜
相关推荐
基于Python自然语言处理工具包在语料库研究中的运用.pdf
基于Python自然语言处理工具包在语料库研究中的运用.pdf
5星 · 资源好评率100%
自然语言处理---语料库
上学期自己下载的新闻,新闻时间是在2009年12月末
5星 · 资源好评率100%
资源MIT发布的10大自然语言处理数据集和语料库
资源MIT发布的10大自然语言处理数据集和语料库
自然语言处理的电影数据集/语料集
用于自然语言处理的电影语料集。该数据集包含2005-2009期间发布的电影的元数据,财务信息和评论评论,供学术研究使用。这些数据由Mahesh Joshi, Dipanjan Das, Kevin Gimpel和Noah Smith收集 。 如果您撰写任何涉及上述数据使用的论文,请引用本文: 电影评论和收入:文本回归实验 Mahesh Joshi, Dipanjan Das, Kevin Gimp
语料库标准
语料库标准 LCMC 研究规范的基本定义和语料库衍生过程
中文NLP命名实体识别序列标注工具YEDDA
中文NLP序列标注工具。利用CRF进行命名实体识别NER,自动标注数据集产生语料库,可以选择BIO或者BMES标注体系。
biopython中文指南
想要利用python处理生物序列方面的数据,biopython是十分好用的
中文NLP实体识别任务之ONE-HOT标注数据(BIOES)修复BERT分词数据偏移
本方法是基于BIOES标注的,如果为其它,请自行修改代码 正常ONE-HOT标注数据是按字标注的:如 反 复 胸 痛 1 5 年 B-PL E-PL B-ZZ E-ZZ B-SJ I-SJ E-SJ 经过BERT分词器分词后为: 反 复 胸 痛 15 年 这时候label就要重新修复下偏移了,修复后结果如下: B-PL E-PL B-ZZ E-ZZ B-SJ E-SJ
中文命名实体识别语料
BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
data.rar BIO标注语料压缩包 下载可用
该数据是完整的BIO标注语料,可用于深度学习机器学习模型训练,分为训练集、测试集以及验证集。
eea.corpus:通过spaCy,Textacy和pyLDAvis以及其他有用的NLP算法对EEA语料库进行机器学习和自然语言处理
EEA语料库(Alpha阶段) 该docker图像基于spaCy,Textacy,pyLDAvis和其他文件,以分析EEA语料库(所有已发布的EEA文档的集合)或带有文本列的任何其他CSV文件。 它提供了许多可以在EEA语料库或其一部分上运行的机器学习和自然语言处理算法。 想法是在可能的情况下通过REST API提供这些方法。 当前功能 编写文本转换管道以准备语料库 首先上传CSV文件,然后
计算机自然语言理解98年1月人民日报某语料库
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
5星 · 资源好评率100%
跨语言自然语言推理语料库.zip
跨语言自然语言推理语料库数据集
Python-中文自然语言处理语料数据集
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
命名实体识别标记语料
已经标记号label的中文命名实体识别的语料库,采用BIM标志形式。包括人名(PERSON)、地点(LOCATION)、时间(TIME)及机构名(ORGANIZATION)。
5星 · 资源好评率100%
中文句法标注系统(语义标注工具)
用于对中文句子进行语义标注,以构建大规模语料库
4星 · 用户满意度95%
YEDDA-master .zip
一款好用的标注工具,在Python环境下操作,支持MENS和BIO标注体系,但仅能定义七个标签,能根据之前标注的内容进行自动标注。
检测标注工具
标注工具,之前是少了文件,github缺失文件,具体安装过程可参考github上面
一个简单的实体标注器
可以对文本中实体进行标注,并且可以标注出实体的关系
BIO编程程序详细源代码
BIO编程程序详细源代码是适合于BIO编程的!!!!!!!!!!!!
NER中文命名实体识别数据集
中文命名实体识别数据集,很好用。包括组织,机构和人物三个实体。
中文NER集合
基于马尔科夫逻辑的命名实体识别技术 关于NER的综述
5星 · 资源好评率100%
DarknetYolo数据集标注工具
自己制作的DarknetYolo数据集标注工具,可以快速对图片进行目标标注。
3星 · 编辑精心推荐
人民日报2014年语料库
人民日报2014年语料库,2014.1.1至2014年1.23日人民日报语料库。
5星 · 资源好评率100%
2014年人民日报标注数据.zip
2014年人民日报标注数据,里面包含词性标注,可以用来训练词性标注、分词模型、实体识别模型。
北京大学语料库(1 833 177 字)包含训练和测试集
北京大学语料库(1 833 177 字)包含训练和测试集,文本格式的数据,包含utf8和GBK两种格式
人民日报2014语料.zip
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
ChatGPT教程(终极版)最全整理
这是一篇动了某些人利益的良心教程。 这是一篇姗姗来迟的ChatGPT教程。 纯小白关于ChatGPT入门,你看我这篇文章就够了。 如果你已经用上了ChatGPT,更要恭喜你挖到宝藏,后面的高级技巧一定能让你有收获。 文章包含以下内容: 一、ChatGPT是啥?有什么用; 二、ChatGPT如何注册; 三、ChatGPT使用方法; 四、用ChatGPT搞钱; 五、高级技巧;
5星 · 资源好评率100%
博客中Kmeans以及FCM算法数据(免积分)
博客中Kmeans以及FCM算法的数据,包括IRIS鸢尾花数据集、Wine葡萄酒数据集、Seed小麦种子数据集、glass数据集、WDBD乳腺癌数据集,下载在直接存入项目文件夹即可,如果下载不了,可以私信我,看到后会及时回复。
5星 · 资源好评率100%
hugging face的models-openai-clip-vit-large-patch14文件夹
用于无法访问hugging face并需要运行stable-diffusion-webui时使用
3星 · 编辑精心推荐
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论3
最新资源