This .zip file includes the datasets (training/testint/validation) used in the experiments of paper:
Incorporating Loose-Structured Knowledge into LSTM with Recall-Gate for Conversation Modeling.
The datasets are extracted from the corpus: http://cs.mcgill.ca/~jpineau/datasets/ubuntu-corpus-1.0/
Negtive sampling is conducted to produce balanced training set and 1:9 validation/testing sets following the paper of Lowe et al. (2015)
The details of the datasets are give below:
1. train.txt: 1 million training samples (pos:neg=1:1)
2. valid.txt: 50,000 samples for validation (pos:neg=1:9)
3. test.txt: 50,000 samples for testing (pos:neg=1:9)
4. vocab.txt: Vocabulary of the datasets.
没有合适的资源?快使用搜索试试~ 我知道了~
Ubuntu Dialogue Corpus V1
共5个文件
txt:5个
需积分: 9 29 下载量 62 浏览量
2017-08-03
17:17:34
上传
评论 3
收藏 190MB RAR 举报
温馨提示
label \t conversation utterances (splited by \t) \t response
资源推荐
资源详情
资源评论
收起资源包目录
ubuntu_data.rar (5个子文件)
ubuntu_data
test.txt 338.15MB
train.txt 676.29MB
valid.txt 337.03MB
ReadMe.txt 704B
vocab.txt 1.97MB
共 5 条
- 1
资源评论
热爱Coding
- 粉丝: 1016
- 资源: 398
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功