#### 为中文自然语言处理领域发展贡献语料
<a href='https://www.SuperCLUEAI.com'>中文通用大模型匿名对战评价基准,SuperCLUE琅琊榜</a>
<a href="https://github.com/CLUEbenchmark/SuperCLUE">SuperCLUE: 中文通用大模型综合性测评基准</a>
*** update ****
中文任务基准测评,10大任务 & 9个模型一键运行、详细测评:
Language Understanding Evaluation benchmark for Chinese(<a href='https://www.CLUEbenchmarks.com'>CLUE benchmark<a/>): run 10 tasks & 9 baselines with one line of code, performance comparision with details.
Releasing Pre-trained Model of <a href="https://github.com/brightmart/albert_zh">ALBERT_Chinese</a>:
Training with 30G+ Raw Chinese Corpus, xxlarge, small version and more, Target to match State of the Art performance in Chinese with 30% less parameters, 2019-Oct-7, During the National Day of China!</a>
语料库将会不断扩充。。。
一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。
#### 1.维基百科(wiki2019zh),100万个结构良好的中文词条
#### 2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
#### 3.百科问答(baike2018qa),150万个带问题类型的问答
#### 4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
#### 5.翻译语料(translation2019zh),520万个中英文句子对
#### 为什么需要这个项目
中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上,
普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,
在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
不知道你是否也遇到了这样的问题?
我们这个项目,就是为了解决这一问题贡献微薄之力。
1.维基百科json版(wiki2019zh)
-------------------------------------------------------------------------
#### 104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7)
<a href='https://drive.google.com/file/d/1EdHUZIDpgcBoSqbjlfNKJ3b1t0XIUjbt/view?usp=sharing'>Google Drive下载</a> <a href='https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA'> 或 百度云盘</a>
#### 可能的用途:
可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
#### 结构:
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中,title是词条的标题,text是正文;通过"\n\n"换行。
#### 例子:
{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}
#### 效果:
经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学(研究「是什么」)以及规范经济学(研究「应该是什么」)、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学(研究理性-个体-均衡等)与非主流经济学(研究体制-历史-社会结构等)。
经济学的分析也被用在其他各种领域上,主要领域包括了商业、金融、和政府等,但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初,经济学在社会科学领域各方面不断扩张影响力,使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法,其中有许多说法因为发展自不同的领域或理论而有截然不同的定义,苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」,他说:
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来,并定义其为对于财富之生产、分配、和消费的学问。另一方面,托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」(Dismal science),不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度:
.....
<img src="https://github.com/brightmart/nlp_chinese_corpus/blob/master/resources/img/wiki_zh.jpg" width="90%" height="90%" />
<br>
2.新闻语料json版(news2016zh)
-------------------------------------------------------------------------
#### 250万篇新闻( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
<a href='https://drive.google.com/file/d/1TMKu1FpTr6kcjWXWlQHX7YJsMfhhcVKp/view?usp=sharing'>Google Drive下载</a>或 <a href='https://pan.baidu.com/s/1MLLM-CdM6BhJkj8D0u3atA'>百度云盘下载</a>,密码:k265
#### 数据描述
包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。
数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
#### 可能的用途:
可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;
也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);
亦可以通过新闻渠道区分出新闻的类型。
#### 结构:
{'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}
其中,title是新闻标题,content是正文,keywords是关键词,desc是描述,source是新闻的来源,time是发布时间
#### 例子:
{"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在�
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP.zip
5星 · 超过95%的资源 需积分: 1 178 浏览量
2023-10-07
11:52:59
上传
评论
收藏 3.93MB ZIP 举报
机智的程序员zero
- 粉丝: 1576
- 资源: 4137
最新资源
- 基于matlab实现用有限元法计算电磁场的Matlab工具 .rar
- 基于matlab实现有限元算法 计算电磁场问题 边界条件包括第一类边界和第二类边界.rar
- 基于matlab实现用于计算不同车重下的电动汽车动力性和经济性.rar
- 基于matlab实现遗传算法求解多车场车辆路径问题 有多组算例可以用.rar
- 浏览器.apk
- 基于matlab实现是一个matlab中的power system 中搭建的一个模型
- 基于JSP毕业设计-教学管理系统(源代码+论文).zip
- 基于JSP毕业设计-家政管理系统-毕业设计.zip
- 基于Python实现淘宝商品评论采集(含逆向)源代码
- 基于matlab实现多目标进化算法NSGAⅡ&Matlab讲解.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈