中英文NLP数据集资源资源-CSDN文库

共18个文件

md：13个

py：2个

sh：1个

需积分: 6 39 浏览量 2023-04-13 16:48:36 上传评论收藏 698KB ZIP 举报

自然语言处理（NLP）是计算机科学领域的一个关键分支，主要关注如何使计算机理解、解析、生成和操作人类语言。NLP技术广泛应用于各种场景，如机器翻译、文本分类、情感分析、问答系统以及对话系统等。数据集在NLP研究和开发中起着至关重要的作用，它们为模型训练、验证和测试提供了丰富的语料。 “中英文NLP数据集资源”这个主题涵盖了两种主要语言——中文和英文的数据集，这对于开发跨语言的NLP应用至关重要。这些数据集通常包括各种文本类型，如新闻文章、社交媒体帖子、电子邮件、对话记录等，可以用来训练模型以处理不同的任务。 CLUEDatasetSearch-master是一个可能包含多个NLP数据集的压缩包。CLUE（Chinese Language Understanding Evaluation，中文理解评估）是一个针对中文NLP的基准测试平台，它提供了多个具有挑战性的任务，如文本蕴含、实体识别、关系抽取、篇章理解等。参与CLUE项目，不仅可以访问这些数据集，还可以为社区做出贡献，例如上传自己的数据集，如果审核通过，还有机会成为项目贡献者，这有助于推动NLP技术的进步。在NLP数据集中，每个子文件通常对应一个特定的任务或应用。例如： 1. **文本分类**：数据集可能包括新闻分类、情感分析等，其中每个样本都有预定义的类别标签。 2. **命名实体识别（NER）**：这类数据集用于识别文本中的实体，如人名、地名、组织名等，并进行标记。 3. **语义蕴含（Entailment）**：数据集用于判断一个句子是否可以从另一个句子中推断出来，常用于评估模型的理解能力。 4. **机器翻译（Machine Translation）**：包含双语对照的句子，用于训练模型将一种语言翻译成另一种语言。 5. **对话系统**：提供真实或模拟的对话记录，帮助构建能够理解和回应人类的聊天机器人。对于中文NLP，由于语言特性，如汉字的复杂性、词序的灵活性和丰富的成语、俗语，往往需要专门针对中文特点设计的数据集。同样，英文NLP也有其独特的挑战，如词汇的多义性、复杂的句法结构等。使用这些数据集时，研究者首先会进行数据预处理，包括分词、去除停用词、词形还原等步骤。接着，他们可以选用各种NLP模型，如传统的基于规则的方法、统计学习模型（如CRF、HMM）、深度学习模型（如RNN、LSTM、BERT等）进行训练。模型训练完成后，通过在验证集上调整超参数，最终在测试集上评估性能。 "中英文NLP数据集资源"涵盖了NLP领域的核心任务，提供了丰富的学习和研究材料。无论是对学术研究者还是工业界开发者，这些数据集都是推进NLP技术发展的重要基石。通过参与和贡献，我们可以共同推动NLP领域的进步，实现更智能、更人性化的自然语言交互。

资源推荐

资源详情

资源评论

收起资源包目录

CLUEDatasetSearch-master.zip （18个子文件）

CLUEDatasetSearch-master

知识图谱

README.md 2KB

机器翻译

README.md 9KB

文本摘要

README.md 11KB

阅读理解

README.md 18KB

README.md 4KB

NER

README.md 4KB

文本匹配

README.md 11KB

.gitignore 10B

文本分类

README.md 8KB

语料库

README.md 12KB

README.md 93KB

情感分析

README.md 6KB

scripts

test.md 85KB

tt.md 83KB

git.gif 694KB

file_process.sh 592B

pytmp.py 1KB

t.py 687B

# CLUEDatasetSearch 中英文NLP数据集。可以点击[搜索](https://www.cluebenchmarks.com/dataSet_search.html)。您可以通过<a href='https://www.cluebenchmarks.com/dataSet_upload.html'>上传数据集信息</a>贡献你的力量。上传五个或以上数据集信息并审核通过后，该同学可以作为项目贡献者，并显示出来。 <a href="https://www.cluebenchmarks.com/clueai.html">clueai工具包: 三分钟三行代码搞定NLP开发（零样本学习）</a> ![gif](./scripts/git.gif) - [NER](#ner) - [QA](#qa) - [情感分析](#情感分析) - [文本分类](#文本分类) - [文本匹配](#文本匹配) - [文本摘要](#文本摘要) - [机器翻译](#机器翻译) - [知识图谱](#知识图谱) - [语料库](#语料库) - [阅读理解](#阅读理解) - [贡献与参与](#贡献与参与) 如果数据集有问题，欢迎提出issue。所有数据集均来源于网络，只做整理供大家提取方便，如果有侵权等问题，请及时联系我们删除。 # NER | ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | --------- | -------------------------------------- | ---- | ------------------------------------------------------------ | ------------ | ------------ | ----------------------------------------------------- | ---- | | 1 | [CCKS2017中文电子病例命名实体识别](https://biendata.com/competition/CCKS2017_2/data/) | 2017年5月 | 北京极目云健康科技有限公司 | | 数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理 | 电子病历 | 命名实体识别 | \ | 中文 | | 2 | [CCKS2018中文电子病例命名实体识别](https://biendata.com/competition/CCKS2018_1/data/) | 2018年 | 医渡云（北京）技术有限公司 | | CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | 电子病历 | 命名实体识别 | \ | 中文 | | 3 | [微软亚研院MSRA命名实体识别识别数据集](https://github.com/lemonhu/NER-BERT-pytorch/tree/master/data/msra) | \ | MSRA | | 数据来源于MSRA，标注形式为BIO，共有46365条语料 | Msra | 命名实体识别 | \ | 中文 | | 4 | [1998人民日报语料集实体识别标注集](https://github.com/ThunderingII/nlp_ner/tree/master/data) | 1998年1月 | 人民日报 | | 数据来源为98年人民日报，标注形式为BIO，共有23061条语料 | 98人民日报 | 命名实体识别 | \ | 中文 | | 5 | [Boson](https://github.com/TomatoTang/BILSTM-CRF) | \ | 玻森数据 | | 数据来源为Boson，标注形式为BMEO,共有2000条语料 | Boson | 命名实体识别 | \ | 中文 | | 6 | [CLUE Fine-Grain NER](https://storage.googleapis.com/cluebenchmark/tasks/cluener_public.zip) | 2020年 | CLUE | | CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料 | 细粒度；CULE | 命名实体识别 | \ | 中文 | | 7 | [CoNLL-2003](https://www.clips.uantwerpen.be/conll2003/ner/) | 2003 | CNTS - Language Technology Group | | 数据来源于CoNLL-2003的任务，该数据标注了包括PER, LOC, ORG和MISC的四个类别 | CoNLL-2003 | 命名实体识别 | [论文](https://www.aclweb.org/anthology/W03-0419.pdf) | 英文 | | 8 | [微博实体识别](https://github.com/hltcoe/golden-horse) | 2015年 | https://github.com/hltcoe/golden-horse | | | EMNLP-2015 | 命名实体识别 | | | | 9 | [SIGHAN Bakeoff 2005](http://sighan.cs.uchicago.edu/bakeoff2005/) | 2005年 | MSR/PKU | | | bakeoff-2005 | 命名实体识别 | | | # QA | ID | 标题 | 更新日期 | 数据集提供者 | 许可 | 说明 | 关键字 | 类别 | 论文地址 | 备注 | | ---- | ------------------------------------------------------------ | --------- | ------------ | ---- | ------------------------------------------------------------ | ------ | ---- | ------------------------------------------------------------ | ---- | | 1 | [NewsQA](https://github.com/Maluuba/newsqa) | 2019/9/13 | 微软研究院 | | Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。 | 英文 | QA | [论文](https://arxiv.org/abs/1611.09830) | | | 2 | [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) | | 斯坦福 | | 斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。 | 英文 | QA | [论文](https://arxiv.org/abs/1606.05250) | | | 3 | [SimpleQuestions](https://www.dropbox.com/s/tohrsllcfy7rch4/SimpleQuestions_v2.tgz) | | Facebook | | 基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。 | 英文 | QA | [论文](https://arxiv.org/pdf/1506.02075v1.pdf) | | | 4 | [WikiQA](https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fdownloads%2F4495da01-db8c-4041-a7f6-7984a4f6a905%2Fdefault.aspx) | 2016/7/14 | 微软研究院 | | 为了反映一般用户的真实信息需求，WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息，所以使用本节中的句子作为候选答案。在众包的帮助下，数据集中包括3047个问题和29258个句子，其中1473个句子被标记为对应问题的回答句子。 | 英文 | QA | [论文](https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/?from=http%3A%2F%2Fresearch.microsoft.com%2Fpubs%2F252176%2Fyangyihmeek_emnlp-15_wikiqa.pdf) | | | 5 | [cMedQA](https://github.com/zhangsheng93/cMedQA) | 2019/2/25 | Zhang

评论收藏

内容反馈