把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。
> 1. 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
> 2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
> 3. 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。
关注公众号:尘世美小茶馆,获取更多丰富资源。
![](Images/wechat.jpg)
目录:
- [1. NLP中文语料](#1)
- [1.1 生语料](#1.1)
- [1.1.1 人民日报新闻数据](#1.1.1)
- [1.1.2 微信公众号语料库](#1.1.1)
- [1.2 结构化数据](#1.2)
- [1.2.1 中国古代人物传记数据库(CBDB)](#1.2.1)
- [1.3 文本分类数据集](#1.3)
- [1.3.1 2018法研杯](#1.3.1)
- [1.3.2 今日头条中文新闻(短文本)分类数据集](#1.3.2)
- [1.3.3 清华新闻分类语料](#1.3.3)
- [1.3.4 SMP2017中文人机对话评测数据](#1.3.4)
- [1.3.5 中国新闻网新闻分类语料](#1.3.5)
- [1.3.6 凤凰网新闻分类语料](#1.3.6)
- [1.4 序列标注数据集(分词、命名实体识别、词性标注等)](#1.4)
- [1.4.1 SiGHAN2005分词数据集](#1.4.1)
- [1.4.2 MSRA命名实体识别数据集](#1.4.2)
- [1.4.3 人民日报命名实体识别数据集](#1.4.3)
- [1.4.4 微博命名实体识别数据集](#1.4.4)
- [1.4.5 影视-音乐-书籍实体标注数据](#1.4.5)
- [1.4.6 BosonNLP NER数据](#1.4.6)
- [1.4.7 cluener 细粒度实体识别数据集](#1.4.7)
- [1.4.8 人民日报2014NER标注数据](#1.4.8)
- [1.4.9 1998年1月-6月人民日报标注语料](#1.4.9)
- [1.5 指代消解](#1.5)
- [1.5.1 CLUEWSC2020](#1.5.1)
- [1.6 对话](#1.6)
- [1.6.1 好大夫医疗对话数据集](#1.6.1)
- [1.6.2 中文医疗对话数据集](#1.6.2)
- [1.7 情感分析](#1.7)
- [1.7.1 携程网酒店评论数据](#1.7.1)
- [1.7.2 外卖评论数据](#1.7.2)
- [1.7.3 电商商品评论数据](#1.7.3)
- [1.7.4 微博情感数据(2类)](#1.7.4)
- [1.7.5 微博情感数据(4类)](#1.7.5)
- [1.7.6 电影评论评分数据](#1.7.6)
- [1.7.7 大众点评餐馆评论数据](#1.7.7)
- [1.7.8 Amazon商品评论数据](#1.7.8)
- [1.7.9 豆瓣电影评论数据](#1.7.9)
- [1.7.10 大众点评用户评论(2类)](#1.7.10)
- [1.7.11 京东用户评论数据](#1.7.11)
- [1.8 语义相似度(文本蕴含)](#1.8)
- [1.8.1 LCQMC](#1.8.1)
- [1.8.2 ChineseSTS](#1.8.2)
- [1.8.3 ATEC蚂蚁金服语义相似度数据](#1.8.3)
- [1.9 问答](#1,9)
- [1.9.1 580万百度知道社群问答](#1.9.1)
- [1.9.2 DuReader](#1.9.2)
- [1.9.3 细分领域知道问答数据集](#1.9.3)
- [1.9.4 社区问答数据集](#1.9.4)
- [1.10 阅读理解](#1.10)
- [1.10.1 人民日报&童话故事](#1.10.1)
- [1.10.2 CMRC2017](#1.10.2)
- [1.10.3 CMRC2018](#1.10.3)
- [1.10.4 CMRC2019](#1.10.4)
- [1.10.5 DRCD](#1.10.5)
- [1.10.6 C^3](#1.10.6)
- [1.10.7 ChiD](#1.10.7)
- [1.10.8 DuReader](#1.10.8)
- [2. NLP外文语料](#2)
- [2.1 文本分类数据集](#2.1)
- [2.1.1 Fake News Corpus](#2.1.1)
- [2.1.2 AG News](#2.1.2)
- [2.1.3 ColBERT](#2.1.3)
- [2.2 情感分析](#2.2)
- [2.2.1 MovieTweetings](#2.2.1)
- [2.2.2 Amazon Fine Food Reviews](#2.2.2)
- [2.2.3 Amazon Reviews](#2.2.3)
- [2.2.4 Yelp Open Dataset](#2.2.4)
- [2.2.5 MovieLens](#2.2.5)
- [2.3 对话](#2.3)
- [2.3.1 Twitter Chat Corpus](#2.3.1)
- [2.4 序列标注数据集(分词、命名实体识别、词性标注等)](#2.4)
- [2.4.1 DAWT](#2.4.1)
- [2.5 机器翻译](#2.5)
- [2.5.1 Europarl](#2.5.1)
- [2.5.2 United Nations Parallel Corpus](#2.5.2)
- [2.5.3 News-Commentary](#2.5.3)
- [2.5.4 wikititles](#2.5.4)
- [2.5.5 Ted Talk](#2.5.5)
- [2.5.6 中英翻译数据集](#2.5.6)
- [2.6 语义相似度(文本蕴含)](#2.6)
- [2.6.1 PAWS](#2.6.1)
- [2.6.2 DNLI](#2.6.2)
- [2.6.3 MultiNLI](#2.6.3)
- [2.6.4 XNLI](#2.6.4)
- [2.6.5 SNLI](#2.6.5)
- [2.6.6 Quora Question Pairs](#2.6.6)
- [2.7 问答](#2.7)
- [2.7.1 MS MARCO](#2.7.1)
- [2.8 阅读理解](#2.8)
- [2.8.1 HotpotQA](#2.8.1)
- [2.8.2 SQuAD v2.0](#2.8.2)
- [2.8.3 CoQA](#2.8.3)
- [2.9 文本摘要](#2.9)
- [2.9.1 BigPatent](#2.9.1)
- [3. 语言资源](#3)
- [3.1 实体类](#3.1)
- [3.1.1 百科实体](#3.1.1)
- [3.1.2 中国古代编年史CBDB实体](#3.1.2)
- [3.2 词典类](#3.2)
- [3.2.1 百科词条名](#3.2.1)
- [3.2.2 360万中文词库(包含词性和词频)](#3.2.2)
- [3.2.3 谷歌书籍N-gram数据](#3.2.3)
- [4. KG数据](#4)
- [4.1 百科三元组](#4.1)
- [4.2 Dbpedia](#4.2)
- [4.3 OpenKG](#4.3)
<h1 id='1'>1. 中文语料</h1>
<h2 id='1.1'>1.1 生语料</h2>
<h3 id='1.1.1'>1.1.1 人民日报新闻数据</h3>
包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的[页面](http://www.360doc.com/content/10/0415/14/257553_23177268.shtml) ,作者邮箱应该是 [email protected] ,联系过,没收到回复。原始数据是图文数据库,我将其转存[百度网盘](https://pan.baidu.com/s/1YJ6vVfJQVVLGavs1hAdSuQ) ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本[rmrb.py](./Chinese/raw_corpus/rmrb.py) 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。
<h3 id='1.1.2'>1.1.2 微信公众号语料库</h3>
[微信公众号语料库](https://github.com/nonamestreet/weixin_public_corpus):只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。
---
<h2 id='1.2'>1.2 结构化数据</h2>
<h3 id='1.2.1'>1.2.1 中国古代人物传记数据库(CBDB)</h3>
[中国历代人物传记数据库](https://projects.iq.harvard.edu/cbdb)(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。
CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的[版本](https://pan.baidu.com/s/1olG3Fnn6gCqyo9lgNKYhrw),表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本[cbdb.py](./Chinese/structural_data/cbdb.py)是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。
<h2 id='1.3'>1.3 文本分类数据集</h2>
<h3 id='1.3.1'>1.3.1 2018法研杯</h3>
2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
---
<h3 id='1.3.2'>1.3.2 今日头条中文新闻(短文本)分类数据集</h3>
今日头条中文新闻(短文本)分类[数据
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
知识图谱是一种结构化的知识表达形式,它以图形的方式组织和存储了大量实体(如人、地点、事件等)及其相互关系。在知识图谱中,实体作为节点,实体之间的各种语义关联则通过边进行连接,形成了一个庞大的数据网络。 知识图谱的核心价值在于其能够精确、直观地表示复杂世界中的知识,并支持高效的知识查询与推理。例如,在搜索引擎中,知识图谱可以提升搜索结果的相关性和准确性,为用户提供直接的答案而非仅仅是网页链接。同时,知识图谱还能支撑高级的人工智能应用,比如问答系统、推荐系统、决策支持等领域。 构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,从而推动人工智能向着更加理解人类世界的智慧方向发展。 总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
资源推荐
资源详情
资源评论
收起资源包目录
自然语言处理,知识图谱相关语料。按照Task细分,欢迎PR。.zip (22个子文件)
SJT-code
Chinese
raw_corpus
rmrb.py 2KB
structural_data
cbdb.py 10KB
tradition2simple
__init__.py 129B
zh_wiki.py 140KB
langconv.py 8KB
traditional2simple.py 283B
classification
zhihu_detail.txt 3KB
sequence_tagging
人民日报2014NER数据.zip 31.76MB
sighan2005分词.rar 40.82MB
bosonNER.txt 1.78MB
similarity
atec_nlp_sim_train_add.csv 5.37MB
atec_nlp_sim_train.csv 3.32MB
Foreign
translation
wmt_downloader.py 2KB
.idea
vcs.xml 180B
workspace.xml 8KB
misc.xml 288B
inspectionProfiles
Project_Default.xml 404B
modules.xml 264B
deployment.xml 717B
corpus.iml 453B
Images
wechat.jpg 39KB
README.md 30KB
共 22 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功