自然语言处理，知识图谱相关语料。按照Task细分，欢迎PR。.zip资源-CSDN文库

共22个文件

py：7个

xml：6个

txt：2个

版权申诉

知识图谱

python

毕业设计

192 浏览量 2024-03-15 13:37:30 上传评论收藏 76.14MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

自然语言处理，知识图谱相关语料。按照Task细分，欢迎PR。.zip （22个子文件）

SJT-code

Chinese

raw_corpus

rmrb.py 2KB

structural_data

cbdb.py 10KB

tradition2simple

__init__.py 129B

zh_wiki.py 140KB

langconv.py 8KB

traditional2simple.py 283B

classification

zhihu_detail.txt 3KB

sequence_tagging

人民日报2014NER数据.zip 31.76MB

sighan2005分词.rar 40.82MB

bosonNER.txt 1.78MB

similarity

atec_nlp_sim_train_add.csv 5.37MB

atec_nlp_sim_train.csv 3.32MB

Foreign

translation

wmt_downloader.py 2KB

.idea

vcs.xml 180B

workspace.xml 8KB

misc.xml 288B

inspectionProfiles

Project_Default.xml 404B

modules.xml 264B

deployment.xml 717B

corpus.iml 453B

Images

wechat.jpg 39KB

README.md 30KB

把自己找到的语料和语言资源整理一下，避免以后需要的时候又浪费时间去收集（长期坑位）。 > 1. 数据使用范围、授权请参考原始发布源（如果有的话），如有侵权，请联系我删除。 > 2. 有的数据源（网站、论文）提供了多语语料，为避免重复，只在中文或外语对应章节列出（比如翻译）。如有多语资源，会在相应章节进行说明（如需要特定任务的数据集，可以分别在中文和外语语料对应章节进行查看）。 > 3. 我这里“问答”和“阅读理解”划分的标准是：输入是一段背景信息或者加上用户query，输出是从背景信息抽取的答案（或者判定不能回复）或者填空，这样的数据集归类为“阅读理解”；“问答”可以看做是对话的另外一种形式。关注公众号：尘世美小茶馆，获取更多丰富资源。 ![](Images/wechat.jpg) 目录： - [1. NLP中文语料](#1) - [1.1 生语料](#1.1) - [1.1.1 人民日报新闻数据](#1.1.1) - [1.1.2 微信公众号语料库](#1.1.1) - [1.2 结构化数据](#1.2) - [1.2.1 中国古代人物传记数据库(CBDB)](#1.2.1) - [1.3 文本分类数据集](#1.3) - [1.3.1 2018法研杯](#1.3.1) - [1.3.2 今日头条中文新闻（短文本）分类数据集](#1.3.2) - [1.3.3 清华新闻分类语料](#1.3.3) - [1.3.4 SMP2017中文人机对话评测数据](#1.3.4) - [1.3.5 中国新闻网新闻分类语料](#1.3.5) - [1.3.6 凤凰网新闻分类语料](#1.3.6) - [1.4 序列标注数据集（分词、命名实体识别、词性标注等）](#1.4) - [1.4.1 SiGHAN2005分词数据集](#1.4.1) - [1.4.2 MSRA命名实体识别数据集](#1.4.2) - [1.4.3 人民日报命名实体识别数据集](#1.4.3) - [1.4.4 微博命名实体识别数据集](#1.4.4) - [1.4.5 影视-音乐-书籍实体标注数据](#1.4.5) - [1.4.6 BosonNLP NER数据](#1.4.6) - [1.4.7 cluener 细粒度实体识别数据集](#1.4.7) - [1.4.8 人民日报2014NER标注数据](#1.4.8) - [1.4.9 1998年1月-6月人民日报标注语料](#1.4.9) - [1.5 指代消解](#1.5) - [1.5.1 CLUEWSC2020](#1.5.1) - [1.6 对话](#1.6) - [1.6.1 好大夫医疗对话数据集](#1.6.1) - [1.6.2 中文医疗对话数据集](#1.6.2) - [1.7 情感分析](#1.7) - [1.7.1 携程网酒店评论数据](#1.7.1) - [1.7.2 外卖评论数据](#1.7.2) - [1.7.3 电商商品评论数据](#1.7.3) - [1.7.4 微博情感数据（2类）](#1.7.4) - [1.7.5 微博情感数据（4类）](#1.7.5) - [1.7.6 电影评论评分数据](#1.7.6) - [1.7.7 大众点评餐馆评论数据](#1.7.7) - [1.7.8 Amazon商品评论数据](#1.7.8) - [1.7.9 豆瓣电影评论数据](#1.7.9) - [1.7.10 大众点评用户评论（2类）](#1.7.10) - [1.7.11 京东用户评论数据](#1.7.11) - [1.8 语义相似度（文本蕴含）](#1.8) - [1.8.1 LCQMC](#1.8.1) - [1.8.2 ChineseSTS](#1.8.2) - [1.8.3 ATEC蚂蚁金服语义相似度数据](#1.8.3) - [1.9 问答](#1,9) - [1.9.1 580万百度知道社群问答](#1.9.1) - [1.9.2 DuReader](#1.9.2) - [1.9.3 细分领域知道问答数据集](#1.9.3) - [1.9.4 社区问答数据集](#1.9.4) - [1.10 阅读理解](#1.10) - [1.10.1 人民日报&童话故事](#1.10.1) - [1.10.2 CMRC2017](#1.10.2) - [1.10.3 CMRC2018](#1.10.3) - [1.10.4 CMRC2019](#1.10.4) - [1.10.5 DRCD](#1.10.5) - [1.10.6 C^3](#1.10.6) - [1.10.7 ChiD](#1.10.7) - [1.10.8 DuReader](#1.10.8) - [2. NLP外文语料](#2) - [2.1 文本分类数据集](#2.1) - [2.1.1 Fake News Corpus](#2.1.1) - [2.1.2 AG News](#2.1.2) - [2.1.3 ColBERT](#2.1.3) - [2.2 情感分析](#2.2) - [2.2.1 MovieTweetings](#2.2.1) - [2.2.2 Amazon Fine Food Reviews](#2.2.2) - [2.2.3 Amazon Reviews](#2.2.3) - [2.2.4 Yelp Open Dataset](#2.2.4) - [2.2.5 MovieLens](#2.2.5) - [2.3 对话](#2.3) - [2.3.1 Twitter Chat Corpus](#2.3.1) - [2.4 序列标注数据集（分词、命名实体识别、词性标注等）](#2.4) - [2.4.1 DAWT](#2.4.1) - [2.5 机器翻译](#2.5) - [2.5.1 Europarl](#2.5.1) - [2.5.2 United Nations Parallel Corpus](#2.5.2) - [2.5.3 News-Commentary](#2.5.3) - [2.5.4 wikititles](#2.5.4) - [2.5.5 Ted Talk](#2.5.5) - [2.5.6 中英翻译数据集](#2.5.6) - [2.6 语义相似度（文本蕴含）](#2.6) - [2.6.1 PAWS](#2.6.1) - [2.6.2 DNLI](#2.6.2) - [2.6.3 MultiNLI](#2.6.3) - [2.6.4 XNLI](#2.6.4) - [2.6.5 SNLI](#2.6.5) - [2.6.6 Quora Question Pairs](#2.6.6) - [2.7 问答](#2.7) - [2.7.1 MS MARCO](#2.7.1) - [2.8 阅读理解](#2.8) - [2.8.1 HotpotQA](#2.8.1) - [2.8.2 SQuAD v2.0](#2.8.2) - [2.8.3 CoQA](#2.8.3) - [2.9 文本摘要](#2.9) - [2.9.1 BigPatent](#2.9.1) - [3. 语言资源](#3) - [3.1 实体类](#3.1) - [3.1.1 百科实体](#3.1.1) - [3.1.2 中国古代编年史CBDB实体](#3.1.2) - [3.2 词典类](#3.2) - [3.2.1 百科词条名](#3.2.1) - [3.2.2 360万中文词库（包含词性和词频）](#3.2.2) - [3.2.3 谷歌书籍N-gram数据](#3.2.3) - [4. KG数据](#4) - [4.1 百科三元组](#4.1) - [4.2 Dbpedia](#4.2) - [4.3 OpenKG](#4.3) <h1 id='1'>1. 中文语料</h1> <h2 id='1.1'>1.1 生语料</h2> <h3 id='1.1.1'>1.1.1 人民日报新闻数据</h3> 包含1946年-2003年人民日报全部数据以及文革网（2005-2008）全部图文数据库。原始发布地址不详，只找到转载的[页面](http://www.360doc.com/content/10/0415/14/257553_23177268.shtml) ，作者邮箱应该是 [email protected] ，联系过，没收到回复。原始数据是图文数据库，我将其转存[百度网盘](https://pan.baidu.com/s/1YJ6vVfJQVVLGavs1hAdSuQ) ，然后单独整理了一个sql文件方便使用和查询。大多数情况下，只需要考虑文本内容，我写了一个脚本[rmrb.py](./Chinese/raw_corpus/rmrb.py) 将所有新闻导出到txt文件中，方便使用。新闻一共有137万多条。 <h3 id='1.1.2'>1.1.2 微信公众号语料库</h3> [微信公众号语料库](https://github.com/nonamestreet/weixin_public_corpus)：只包含了纯文本。每行一篇，是JSON格式，name是微信公众号名字，account是微信公众号ID，title是题目，content是正文，数据大约3G。 --- <h2 id='1.2'>1.2 结构化数据</h2> <h3 id='1.2.1'>1.2.1 中国古代人物传记数据库（CBDB）</h3> [中国历代人物传记数据库](https://projects.iq.harvard.edu/cbdb)（The China Biographical Database, CBDB）是一个线上关系型数据库，其远期目标在于系统性地收入中国历史上所有重要的传记资料，其内容无限制地、免费地提供学术研究。截止2018年9月为止，该数据库一共收录了422,600人的传记资料，这些人主要出自七世纪至十九世纪，该数据库目前致力于增录更多的唐代和明清的人物传记资料。 CBDB的数据是用access和sqlite两种数据库进行存储，我转了一个mysql的[版本](https://pan.baidu.com/s/1olG3Fnn6gCqyo9lgNKYhrw)，表格和字段的具体说明请参考官网。由于数据是不断更新的，需要最新数据的请到官网下载。脚本[cbdb.py](./Chinese/structural_data/cbdb.py)是将sqlite中的数据导入mysql中，如果数据库表格发生改变，可能需要更新一下脚本。 <h2 id='1.3'>1.3 文本分类数据集</h2> <h3 id='1.3.1'>1.3.1 2018法研杯</h3> 2018中国‘法研杯’法律智能挑战赛（任务：罪名预测、法条推荐、刑期预测）的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip)，数据集共包括268万刑法法律文书，共涉及183条罪名，202条法条，刑期长短包括0-25年、无期、死刑。 --- <h3 id='1.3.2'>1.3.2 今日头条中文新闻（短文本）分类数据集</h3> 今日头条中文新闻（短文本）分类[数据

评论收藏

内容反馈

版权申诉