把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。
> 1. 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
> 2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
> 3. 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。
关注公众号:尘世美小茶馆,获取更多丰富资源。
![](Images/wechat.jpg)
目录:
- [1. NLP中文语料](#1)
- [1.1 生语料](#1.1)
- [1.1.1 人民日报新闻数据](#1.1.1)
- [1.1.2 微信公众号语料库](#1.1.1)
- [1.2 结构化数据](#1.2)
- [1.2.1 中国古代人物传记数据库(CBDB)](#1.2.1)
- [1.3 文本分类数据集](#1.3)
- [1.3.1 2018法研杯](#1.3.1)
- [1.3.2 今日头条中文新闻(短文本)分类数据集](#1.3.2)
- [1.3.3 清华新闻分类语料](#1.3.3)
- [1.3.4 SMP2017中文人机对话评测数据](#1.3.4)
- [1.3.5 中国新闻网新闻分类语料](#1.3.5)
- [1.3.6 凤凰网新闻分类语料](#1.3.6)
- [1.4 序列标注数据集(分词、命名实体识别、词性标注等)](#1.4)
- [1.4.1 SiGHAN2005分词数据集](#1.4.1)
- [1.4.2 MSRA命名实体识别数据集](#1.4.2)
- [1.4.3 人民日报命名实体识别数据集](#1.4.3)
- [1.4.4 微博命名实体识别数据集](#1.4.4)
- [1.4.5 影视-音乐-书籍实体标注数据](#1.4.5)
- [1.4.6 BosonNLP NER数据](#1.4.6)
- [1.4.7 cluener 细粒度实体识别数据集](#1.4.7)
- [1.4.8 人民日报2014NER标注数据](#1.4.8)
- [1.4.9 1998年1月-6月人民日报标注语料](#1.4.9)
- [1.5 指代消解](#1.5)
- [1.5.1 CLUEWSC2020](#1.5.1)
- [1.6 对话](#1.6)
- [1.6.1 好大夫医疗对话数据集](#1.6.1)
- [1.6.2 中文医疗对话数据集](#1.6.2)
- [1.7 情感分析](#1.7)
- [1.7.1 携程网酒店评论数据](#1.7.1)
- [1.7.2 外卖评论数据](#1.7.2)
- [1.7.3 电商商品评论数据](#1.7.3)
- [1.7.4 微博情感数据(2类)](#1.7.4)
- [1.7.5 微博情感数据(4类)](#1.7.5)
- [1.7.6 电影评论评分数据](#1.7.6)
- [1.7.7 大众点评餐馆评论数据](#1.7.7)
- [1.7.8 Amazon商品评论数据](#1.7.8)
- [1.7.9 豆瓣电影评论数据](#1.7.9)
- [1.7.10 大众点评用户评论(2类)](#1.7.10)
- [1.7.11 京东用户评论数据](#1.7.11)
- [1.8 语义相似度(文本蕴含)](#1.8)
- [1.8.1 LCQMC](#1.8.1)
- [1.8.2 ChineseSTS](#1.8.2)
- [1.8.3 ATEC蚂蚁金服语义相似度数据](#1.8.3)
- [1.9 问答](#1,9)
- [1.9.1 580万百度知道社群问答](#1.9.1)
- [1.9.2 DuReader](#1.9.2)
- [1.9.3 细分领域知道问答数据集](#1.9.3)
- [1.9.4 社区问答数据集](#1.9.4)
- [1.10 阅读理解](#1.10)
- [1.10.1 人民日报&童话故事](#1.10.1)
- [1.10.2 CMRC2017](#1.10.2)
- [1.10.3 CMRC2018](#1.10.3)
- [1.10.4 CMRC2019](#1.10.4)
- [1.10.5 DRCD](#1.10.5)
- [1.10.6 C^3](#1.10.6)
- [1.10.7 ChiD](#1.10.7)
- [1.10.8 DuReader](#1.10.8)
- [2. NLP外文语料](#2)
- [2.1 文本分类数据集](#2.1)
- [2.1.1 Fake News Corpus](#2.1.1)
- [2.1.2 AG News](#2.1.2)
- [2.1.3 ColBERT](#2.1.3)
- [2.2 情感分析](#2.2)
- [2.2.1 MovieTweetings](#2.2.1)
- [2.2.2 Amazon Fine Food Reviews](#2.2.2)
- [2.2.3 Amazon Reviews](#2.2.3)
- [2.2.4 Yelp Open Dataset](#2.2.4)
- [2.2.5 MovieLens](#2.2.5)
- [2.3 对话](#2.3)
- [2.3.1 Twitter Chat Corpus](#2.3.1)
- [2.4 序列标注数据集(分词、命名实体识别、词性标注等)](#2.4)
- [2.4.1 DAWT](#2.4.1)
- [2.5 机器翻译](#2.5)
- [2.5.1 Europarl](#2.5.1)
- [2.5.2 United Nations Parallel Corpus](#2.5.2)
- [2.5.3 News-Commentary](#2.5.3)
- [2.5.4 wikititles](#2.5.4)
- [2.5.5 Ted Talk](#2.5.5)
- [2.5.6 中英翻译数据集](#2.5.6)
- [2.6 语义相似度(文本蕴含)](#2.6)
- [2.6.1 PAWS](#2.6.1)
- [2.6.2 DNLI](#2.6.2)
- [2.6.3 MultiNLI](#2.6.3)
- [2.6.4 XNLI](#2.6.4)
- [2.6.5 SNLI](#2.6.5)
- [2.6.6 Quora Question Pairs](#2.6.6)
- [2.7 问答](#2.7)
- [2.7.1 MS MARCO](#2.7.1)
- [2.8 阅读理解](#2.8)
- [2.8.1 HotpotQA](#2.8.1)
- [2.8.2 SQuAD v2.0](#2.8.2)
- [2.8.3 CoQA](#2.8.3)
- [2.9 文本摘要](#2.9)
- [2.9.1 BigPatent](#2.9.1)
- [3. 语言资源](#3)
- [3.1 实体类](#3.1)
- [3.1.1 百科实体](#3.1.1)
- [3.1.2 中国古代编年史CBDB实体](#3.1.2)
- [3.2 词典类](#3.2)
- [3.2.1 百科词条名](#3.2.1)
- [3.2.2 360万中文词库(包含词性和词频)](#3.2.2)
- [3.2.3 谷歌书籍N-gram数据](#3.2.3)
- [4. KG数据](#4)
- [4.1 百科三元组](#4.1)
- [4.2 Dbpedia](#4.2)
- [4.3 OpenKG](#4.3)
<h1 id='1'>1. 中文语料</h1>
<h2 id='1.1'>1.1 生语料</h2>
<h3 id='1.1.1'>1.1.1 人民日报新闻数据</h3>
包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的[页面](http://www.360doc.com/content/10/0415/14/257553_23177268.shtml) ,作者邮箱应该是 bjdjssgmzsf@yahoo.com ,联系过,没收到回复。原始数据是图文数据库,我将其转存[百度网盘](https://pan.baidu.com/s/1YJ6vVfJQVVLGavs1hAdSuQ) ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本[rmrb.py](./Chinese/raw_corpus/rmrb.py) 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。
<h3 id='1.1.2'>1.1.2 微信公众号语料库</h3>
[微信公众号语料库](https://github.com/nonamestreet/weixin_public_corpus):只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。
---
<h2 id='1.2'>1.2 结构化数据</h2>
<h3 id='1.2.1'>1.2.1 中国古代人物传记数据库(CBDB)</h3>
[中国历代人物传记数据库](https://projects.iq.harvard.edu/cbdb)(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。
CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的[版本](https://pan.baidu.com/s/1olG3Fnn6gCqyo9lgNKYhrw),表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本[cbdb.py](./Chinese/structural_data/cbdb.py)是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。
<h2 id='1.3'>1.3 文本分类数据集</h2>
<h3 id='1.3.1'>1.3.1 2018法研杯</h3>
2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
---
<h3 id='1.3.2'>1.3.2 今日头条中文新闻(短文本)分类数据集</h3>
今日头条中文新闻(短文本)分类[数据
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
知识图谱是一种结构化的知识表达形式,它以图形的方式组织和存储了大量实体(如人、地点、事件等)及其相互关系。在知识图谱中,实体作为节点,实体之间的各种语义关联则通过边进行连接,形成了一个庞大的数据网络。 知识图谱的核心价值在于其能够精确、直观地表示复杂世界中的知识,并支持高效的知识查询与推理。例如,在搜索引擎中,知识图谱可以提升搜索结果的相关性和准确性,为用户提供直接的答案而非仅仅是网页链接。同时,知识图谱还能支撑高级的人工智能应用,比如问答系统、推荐系统、决策支持等领域。 构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,从而推动人工智能向着更加理解人类世界的智慧方向发展。 总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/ZIP.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/RAR.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/JPG.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
共 22 条
- 1
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/2b17cb8b32224168bb8ed166a94dd8f6_weixin_56154577.jpg!1)
JJJ69
- 粉丝: 6266
- 资源: 5775
![benefits](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-1.c8e153b4.png)
下载权益
![privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-2.ec46750a.png)
C知道特权
![article](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-3.fc5e5fb6.png)
VIP文章
![course-privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-4.320a6894.png)
课程特权
![rights](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-icon.fe0226a8.png)
开通VIP
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- python-leetcode面试题解之第274题H指数.zip
- python-leetcode面试题解之第270题最接近二叉搜索树值.zip
- python-leetcode面试题解之第267题回文排列II.zip
- python-leetcode面试题解之第264题丑数II.zip
- python-leetcode面试题解之第263题丑数.zip
- python-leetcode面试题解之第258题各位相加.zip
- python-leetcode面试题解之第257题二叉树的所有路径.zip
- python-leetcode面试题解之第253题会议室II.zip
- python-leetcode面试题解之第252题会议室.zip
- python-leetcode面试题解之第249题移位字符串分组.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)