# 首届中文NL2SQL挑战赛数据集
赛题了提供约40,000条有标签数据作为训练集,5,000条数据作为验证集,10,000条无标签数据作为测试集。其中,5,000条测试集数据作为初赛测试集,自然语言问句对选手可见;5,000条作为复赛测试集,自然语言问句对选手不可见。
以训练集为例,其中包括了**train.json**、**train.tables.json**及**train.db**。
#### 数据说明
**train.json**文件中,每一行为一条数据样本。数据样例及字段说明例如下:
```json
{
"table_id": "a1b2c3d4", # 相应表格的id
"question": "世茂茂悦府的套均面积是多少?", # 自然语言问句
"sql":{ # 相应SQL
"sel": [7], # SQL选择的列
"agg": [0], # 选择的列相应的聚合函数, '0'代表无
"cond_conn_op": 0, # 条件之间的关系
"conds": [
[1,2,"世茂茂悦府"] # 条件列, 条件类型, 条件值,col_1 == "世茂茂悦府"
]
}
}
```
SQL的表达字典说明:
```python
op_sql_dict = {0:">", 1:"<", 2:"==", 3:"!="}
agg_sql_dict = {0:"", 1:"AVG", 2:"MAX", 3:"MIN", 4:"COUNT", 5:"SUM"}
conn_sql_dict = {0:"", 1:"and", 2:"or"}
```
**train.tables.json**文件中,每一行为一张表格数据。数据样例及字段说明例如下:
```json
{
"id":"a1b2c3d4", # 表格id
"name":"Table_a1b2c3d4", # 表格名称
"title":"表1:2019年新开工预测 ", # 表格标题
"header":[ # 表格所包含的列名
"300城市土地出让",
"规划建筑面积(万㎡)",
……
],
"types":[ # 表格列所相应的类型
"text",
"real",
……
],
"rows":[ # 表格每一行所存储的值
[
"2009年7月-2010年6月",
168212.4,
……
]
]
}
```
**tables.db**为sqlite格式的数据库形式的表格文件。各个表的表名为**tables.json**中相应表格的name字段。
为避免部分列名中的特殊符号导致无法存入数据库文件,表格中的列名为经过归一化的字段,col_1, col_2, …。
#### 联系方式
如有问题,请联系 杨雪峰 ryan@wezhuiyi.com、孙宁远 waynesun@wezhuiyi.com
#### 使用权限
本数据开源给学术界推动技术进步, 严禁商业使用与未授权公开转发. 如果您在研究中使用了本数据集,请引用
https://arxiv.org/abs/2006.06434
```
@misc{sun2020tableqa,
title={TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation},
author={Ningyuan Sun and Xuefeng Yang and Yunfeng Liu},
year={2020},
eprint={2006.06434},
archivePrefix={arXiv},
primaryClass={cs.DB}
}
```
没有合适的资源?快使用搜索试试~ 我知道了~
首届中文NL2SQL挑战赛数据集
需积分: 48 61 下载量 155 浏览量
2021-01-04
21:29:44
上传
评论 4
收藏 36.75MB GZ 举报
温馨提示
共37个文件
json:20个
db:8个
md:2个
首届中文NL2SQL挑战赛数据集
资源详情
资源评论
资源推荐
收起资源包目录
nl2sql-TableQA-ch.tar.gz (37个子文件)
._nl2sql-TableQA-ch 212B
nl2sql-TableQA-ch
._train 212B
train
._train.db 212B
._train.json 212B
train.tables.json 35.99MB
train.db 42.88MB
train.json 9.72MB
._train.tables.json 212B
._test 212B
._README.md 212B
test
._test.json 212B
._.DS_Store 212B
test.db 9.18MB
test.json 582KB
._test.db 212B
test.tables.json 7.47MB
.DS_Store 6KB
standard.json 575KB
._standard.json 212B
._test.tables.json 212B
._val 212B
val
val.json 1.04MB
._val.db 212B
val.tables.json 8MB
val.db 9.74MB
._val.json 212B
._val.tables.json 212B
final
final_test.json 540KB
._final_test.db 212B
._final_test.tables.json 212B
standard.json 551KB
final_test.db 7.57MB
final_test.tables.json 4.4MB
._standard.json 212B
._final_test.json 212B
README.md 3KB
._final 212B
共 37 条
- 1
MLTalks
- 粉丝: 122
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0