# CLUEDatasetSearch
中英文NLP数据集。可以点击[搜索](https://www.cluebenchmarks.com/dataSet_search.html)。
您可以通过<a href='https://www.cluebenchmarks.com/dataSet_upload.html'>上传数据集信息</a>贡献你的力量。上传五个或以上数据集信息并审核通过后,该同学可以作为项目贡献者,并显示出来。
<a href="https://www.cluebenchmarks.com/clueai.html">clueai工具包: 三分钟三行代码搞定NLP开发(零样本学习)</a>
![gif](./scripts/git.gif)
- [NER](#ner)
- [QA](#qa)
- [情感分析](#情感分析)
- [文本分类](#文本分类)
- [文本匹配](#文本匹配)
- [文本摘要](#文本摘要)
- [机器翻译](#机器翻译)
- [知识图谱](#知识图谱)
- [语料库](#语料库)
- [阅读理解](#阅读理解)
- [贡献与参与](#贡献与参与)
如果数据集有问题,欢迎提出issue。
所有数据集均来源于网络,只做整理供大家提取方便,如果有侵权等问题,请及时联系我们删除。
# NER
| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
| ---- | ------------------------------------------------------------ | --------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | ----------------------------------------------------- | ---- |
| 1 | [CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/) | 2017年5月 | 北京极目云健康科技有限公司 | | <font size=2>数据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理</font> </font> | 电子病历 | 命名实体识别 | \ | 中文 |
| 2 | [CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/) | 2018年 | 医渡云(北京)技术有限公司 | | <font size=2> CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 </font> | 电子病历 | 命名实体识别 | \ | 中文 |
| 3 | [微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra) | \ | MSRA | | <font size=2> 数据来源于MSRA,标注形式为BIO,共有46365条语料 </font> | Msra | 命名实体识别 | \ | 中文 |
| 4 | [1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data) | 1998年1月 | 人民日报 | | <font size=2> 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 </font> | 98人民日报 | 命名实体识别 | \ | 中文 |
| 5 | [Boson](https://github.com/TomatoTang/BILSTM-CRF) | \ | 玻森数据 | | <font size=2> 数据来源为Boson,标注形式为BMEO,共有2000条语料 </font> | Boson | 命名实体识别 | \ | 中文 |
| 6 | [CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip) | 2020年 | CLUE | | <font size=2> CLUENER2020数据集,是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据包含10个标签类别,训练集共有10748条语料,验证集共有1343条语料 </font> | 细粒度;CULE | 命名实体识别 | \ | 中文 |
| 7 | [CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/) | 2003 | CNTS - Language Technology Group | | <font size=2> 数据来源于CoNLL-2003的任务,该数据标注了包括PER, LOC, ORG和MISC的四个类别 </font> | CoNLL-2003 | 命名实体识别 | [论文](https://www.aclweb.org/anthology/W03-0419.pdf) | 英文 |
| 8 | [微博实体识别](https://github.com/hltcoe/golden-horse) | 2015年 | https://github.com/hltcoe/golden-horse | | <font size=2> </font> | EMNLP-2015 | 命名实体识别 | | |
| 9 | [SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/) | 2005年 | MSR/PKU | | <font size=2> </font> | bakeoff-2005 | 命名实体识别 | | |
# QA
| ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 |
| ---- | ------------------------------------------------------------ | --------- | ------------ | ---- | ------------------------------------------------------------ | ------ | ---- | ------------------------------------------------------------ | ---- |
| 1 | [NewsQA](https://github.com/Maluuba/newsqa) | 2019/9/13 | 微软研究院 | | <font size=2> Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案,每篇文章平均616个单词,每个问题有2~3个答案。 </font> | 英文 | QA | [论文](https://arxiv.org/abs/1611.09830) | |
| 2 | [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) | | 斯坦福 | | <font size=2> 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由维基百科的一组文章上提出的问题组成,其中每个问题的答案都是一段文本,可能来自相应的阅读段落,或者问题可能是未解答的。 </font> | 英文 | QA | [论文](https://arxiv.org/abs/1606.05250) | |
| 3 | [SimpleQuestions](https://www.dropbox.com/s/tohrsllcfy7rch4/SimpleQuestions_v2.tgz) | | Facebook | | <font size=2> 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集,数据集有100K简单问题的回答。 </font> | 英文 | QA | [论文](https://arxiv.org/pdf/1506.02075v1.pdf) | |
| 4 | [WikiQA](https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fdownloads%2F4495da01-db8c-4041-a7f6-7984a4f6a905%2Fdefault.aspx) | 2016/7/14 | 微软研究院 | | <font size=2> 为了反映一般用户的真实信息需求,WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息,所以使用本节中的句子作为候选答案。在众包的帮助下,数据集中包括3047个问题和29258个句子,其中1473个句子被标记为对应问题的回答句子。 </font> | 英文 | QA | [论文](https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F252176%2Fyangyihmeek_emnlp-15_wikiqa.pdf) | |
| 5 | [cMedQA](https://github.com/zhangsheng93/cMedQA) | 2019/2/25 | Zhang