没有合适的资源?快使用搜索试试~ 我知道了~
来自论文“人们在问什么关于COVID-19?问题分类数据集”的论文中的COVID-Q:COVID-19问题数据集
共71个文件
csv:24个
pdf:15个
tsv:15个
需积分: 10 1 下载量 180 浏览量
2021-01-31
14:29:44
上传
评论
收藏 21.99MB ZIP 举报
温馨提示
COVID-Q:关于COVID-19的1,690个问题 论文“”的完整数据 数据集CSV文件可在找到。 该数据集由已注释为广泛类别(例如,传播,预防)和更具体类别的COVID-19问题组成,因此同一类别中的问题都在问同一件事。 注意:可以在找到我们类别的正式定义。 此存储库中包含的文件夹: code -将数据集拆分为训练/测试数据集并运行基本BERT基线所需的所有代码。 data -包含原始数据(TSV,CSV,PDF)以记录所有问题源 dataset_categories包含用于问题类别分类的可用训练和测试数据。 dataset_classes包含用于问题类别分类的可用训练和测试数据。 数据集 问题类别分类 问题类别分类任务将每个问题分配给15个广泛类别之一(例如,传播,预防)。 目的是使给定问题与最能描述问题所要求的信息类型的类别相匹配。 在dataset_categories文件夹中,包含以下文件: question_embeddings_pooled.pickle数据集中每个问题的BERT嵌入字典。 请注意,扩充问题的嵌入内容未包含在此泡菜中,需要重新创建泡菜文件
资源推荐
资源详情
资源评论
收起资源包目录
COVID-Q-master.zip (71个子文件)
COVID-Q-master
dataset_categories
testA.csv 41KB
question_embeddings_pooled.pickle 10.64MB
train20_augmented.csv 253KB
train20.csv 17KB
testB.csv 13KB
Figure.png 192KB
code
test_class_knn.py 5KB
split_class_dataset.py 2KB
split_category_dataset.py 2KB
test_category_knn.py 3KB
test_category_svm.py 2KB
methods.py 2KB
get_bert_embeddings.py 2KB
eda.py 7KB
dataset_classes
train3.csv 13KB
testA.csv 22KB
question_embeddings_pooled.pickle 10.64MB
train3_augmented.csv 196KB
testB.csv 6KB
README.md 7KB
final_master_dataset.csv 525KB
data
TSVs
John-Hopkins_Dataset.tsv 3KB
.DS_Store 6KB
KeywordTool_Dataset.tsv 25KB
All_Matched_Questions.tsv 93KB
Generated_Questions.tsv 15KB
CNN_Dataset.tsv 13KB
Yahoo-Answers_Dataset.tsv 5KB
WJLA_Dataset.tsv 5KB
Yahoo_Dataset.tsv 7KB
Quora_Dataset.tsv 53KB
FDA_Dataset.tsv 17KB
IDPH_Dataset.tsv 5KB
Bing_Dataset.tsv 5KB
COVID-QA_Dataset.tsv 34KB
UN_Dataset.tsv 7KB
CDC_Dataset.tsv 21KB
zDatasetDocumentation.txt 1KB
final_master_dataset.csv 525KB
PDFs
WJLA Dataset.pdf 4.3MB
CDC Dataset.pdf 408KB
FDA Dataset.pdf 626KB
Google Dataset 2.pdf 325KB
Google Dataset 3.pdf 614KB
Google Dataset 1.pdf 614KB
CNN Dataset.pdf 175KB
Quora.txt 79KB
Yahoo-Answers.txt 12KB
GitHub Dataset.pdf 1.43MB
Google Dataset 4.pdf 304KB
IDPH Dataset.pdf 421KB
Google Dataset 6.pdf 230KB
Google Dataset 5.pdf 608KB
John-Hopkins Dataset.pdf 1.74MB
Bing Dataset.pdf 599KB
UN Dataset.pdf 1.29MB
Original CSVs
Quora_Dataset.csv 84KB
.DS_Store 6KB
All_Matched_Questions.csv 44KB
UN_Dataset.csv 7KB
CDC_Dataset.csv 22KB
Yahoo-Answers_Dataset.csv 5KB
Yahoo_Dataset.csv 7KB
KeywordTool_Dataset.csv 26KB
John-Hopkins_Dataset.csv 3KB
IDPH_Dataset.csv 5KB
FDA_Dataset.csv 17KB
COVID-QA_Dataset.csv 35KB
Bing_Dataset.csv 5KB
CNN_Dataset.csv 13KB
WJLA_Dataset.csv 5KB
共 71 条
- 1
资源评论
weixin_42097189
- 粉丝: 38
- 资源: 4567
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- tensorflow-gpu-2.2.1-cp37-cp37m-win-amd64.whl
- 5年级英语期中202405.xlsx
- tensorflow-gpu-2.5.3-cp39-cp39-manylinux2010-x86-64.whl
- tensorflow-gpu-2.2.2-cp38-cp38-win-amd64.whl
- 扫雷C语言代码,可自己调节难度
- 基于MSP430单片机的多功能复费率电表及上位机系统设计
- 使用 python 的异步库 playwright 进行爬取豆瓣电影排行榜的数据
- 50-50.渗透测试-Kali Linux漏洞利用
- 联通会员注册入口自动化视频
- python 声音-10-JavaScript的使用.ev4.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功