# 中文NLP数据集
这是一个各类中文NLP数据集的集合,旨在把各种不同用途的中文语料收集起来,方便自己以及亲们使用^_^。
## 已收录数据集
### ATEC语义相似度学习赛数据集
比赛链接:https://dc.cloud.alipay.com/index#/topic/ranking?id=8
数据集类型:语义相似度
保存目录:`ATEC`
### CCKS 2018 微众银行智能客服问句匹配大赛数据集
比赛链接:https://biendata.com/competition/CCKS2018_3/leaderboard/
数据集类型:语义相似度
保存目录:`CCKS_2018_3`
### ATEC + CCKS 2018 组合数据集
由于ATEC比赛和CCKS 2018比赛提供的语料都是互金客服场景下的语料,所以把两个数据集的语料合并到了一起,基于分层抽样划分了出了训练集、验证集和测试集,其中:
- 训练集、验证集和测试集的正类比例均为34%左右
- 训练集:约24W样本
- 验证集:1W样本
- 测试集:1W样本
数据集类型:语义相似度
保存目录:ATEC_CCKS
### 哈工大BQ_corpus数据集
数据集地址:http://icrc.hitsz.edu.cn/info/1037/1162.htm
数据集类型:语义相似度
保存目录:`BQ_corpus`
### 哈工大LCQMC数据集
数据集地址:http://icrc.hitsz.edu.cn/Article/show/171.html
数据集类型:语义相似度
保存目录:`LCQMC`
没有合适的资源?快使用搜索试试~ 我知道了~
各类中文NLP数据集的集合
共43个文件
sample:13个
csv:9个
txt:6个
3 下载量 157 浏览量
2023-11-26
13:00:23
上传
评论 2
收藏 44.37MB ZIP 举报
温馨提示
这是一个各类中文NLP数据集的集合,旨在把各种不同用途的中文语料收集起来,方便自己以及亲们使用 已收录数据集 ATEC语义相似度学习赛数据集 数据集类型:语义相似度 保存目录:ATEC CCKS 2018 微众银行智能客服问句匹配大赛数据集 数据集类型:语义相似度 保存目录:CCKS_2018_3 ATEC + CCKS 2018 组合数据集 由于ATEC比赛和CCKS 2018比赛提供的语料都是互金客服场景下的语料,所以把两个数据集的语料合并到了一起,基于分层抽样划分了出了训练集、验证集和测试集,其中: 训练集、验证集和测试集的正类比例均为34%左右 训练集:约24W样本 验证集:1W样本 测试集:1W样本 数据集类型:语义相似度 保存目录:ATEC_CCKS 哈工大BQ_corpus数据集
资源推荐
资源详情
资源评论
收起资源包目录
各类中文NLP数据集的集合.zip (43个子文件)
各类中文NLP数据集的集合
NLP_Datasets
CCKS_2018_3
task3_sample_submission.csv 77KB
task3_dev.txt 753KB
task3_train.txt 7.11MB
task3_test_data_expand
test_with_id.txt 8.26MB
Readme 623B
ATEC
atec_nlp_sim_train_add.csv 5.43MB
atec_nlp_sim_train.csv 3.36MB
LCQMC
dev.txt 683KB
test.txt 770KB
train.txt 15.97MB
ATEC_CCKS
dev.csv 776KB
train.csv 13.82MB
test.csv 776KB
.git
index 2KB
HEAD 23B
refs
heads
master 41B
tags
remotes
origin
HEAD 32B
objects
pack
pack-54b57b1427209b77e3bb88eb1cc2c403d92a1660.pack 21.64MB
pack-54b57b1427209b77e3bb88eb1cc2c403d92a1660.idx 2KB
info
description 73B
packed-refs 114B
info
exclude 240B
logs
HEAD 178B
refs
heads
master 178B
remotes
origin
HEAD 178B
hooks
post-update.sample 189B
prepare-commit-msg.sample 1KB
commit-msg.sample 896B
pre-receive.sample 544B
update.sample 4KB
pre-commit.sample 2KB
pre-rebase.sample 5KB
applypatch-msg.sample 478B
fsmonitor-watchman.sample 5KB
push-to-checkout.sample 3KB
pre-applypatch.sample 424B
pre-push.sample 1KB
pre-merge-commit.sample 416B
config 307B
BQ_corpus
dev.csv 725KB
train.csv 7.11MB
test.csv 728KB
README.md 1KB
共 43 条
- 1
资源评论
梦回阑珊
- 粉丝: 3037
- 资源: 885
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功