This folder contains the datasets used for X-Class.
Due to size constraints, we uploaded the data to google drive,
[here](https://drive.google.com/drive/folders/1w0g3c0z9eoV-IYHCcA54tBKiNTYJy-3J?usp=sharing)
is the download link. After download, you can unzip the zipped dataset through `unzip -o`.
## Data format
We also describe the dataset format for potential use of new datasets.
All files should be placed in a folder with the dataset's name, in this directory. The files to
include are
- dataset.txt
- A text file containing documents, one per line. We will use BERT's tokenizer for tokenization.
- classes.txt
- A text file containing the class names, one per line.
- labels.txt
- A text file containing the class (index) of each document in `dataset.txt`, one label per line.
All the files should have the exact same names.
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
南开大学计算机学院自然语言处理课程大作业,含Python实现的代码及数据集 复现以下三篇论文: 《Counterfactual Inference for Text Classification Debiasing》 《Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and System》 《X-Class: Text Classification with Extremely Weak Supervision》
资源推荐
资源详情
资源评论
收起资源包目录
南开大学计算机学院自然语言处理课程大作业,含Python实现的代码及数据集 (125个子文件)
train.csv 810KB
test.csv 231KB
whole_data.json 17.14MB
train_wiki.json 13.64MB
val_wiki.json 3.37MB
val_semeval.json 2.1MB
pubmed_unsupervised.json 1.04MB
val_nyt.json 1008KB
val_pubmed.json 422KB
pid2name.json 78KB
categories.json 2KB
README.md 850B
README.md 529B
README.md 358B
README.md 287B
README.md 178B
README.md 163B
README.md 160B
README.md 140B
README.md 129B
train.dynamicFewShot.py 41KB
train.DNNC.py 40KB
train.entailment.py 37KB
train.Hybrid.py 35KB
train.Hybrid.py 35KB
train.DNNC.py 35KB
train.DNNC.py 35KB
train.protonet.py 34KB
train.entailment.py 31KB
train.entailment.py 31KB
train_text_classifier.py 29KB
class_oriented_document_representations.py 11KB
static_representations.py 7KB
data_split.py 5KB
document_class_alignment.py 5KB
prepare_text_classifer_training.py 3KB
preprocessing_utils.py 3KB
split_data.py 3KB
utils.py 2KB
evaluate.py 2KB
compute_mean_std.py 2KB
compute_mean_std.py 2KB
compute_mean_std.py 2KB
read_data.py 1KB
train.dynamicFewShot.commands.sh 2KB
train.entailment.commands.sh 2KB
train.protonet.command.sh 2KB
train.Hybrid.commands.sh 2KB
train.DNNC.commands.sh 2KB
train.entailment.commands.sh 2KB
train.entailment.commands.sh 2KB
train.Hybrid.commands.sh 2KB
train.DNNC.commands.sh 2KB
train.DNNC.commands.sh 2KB
run.sh 793B
run_train_text_classifier.sh 737B
run_data_preprocess.sh 84B
run_data_preprocess.sh 49B
dataset.txt 163.22MB
dataset.txt 130.48MB
dataset.txt 130.48MB
dataset.txt 47.83MB
dataset.txt 30.22MB
dataset.txt 27.29MB
dataset.txt 26.13MB
train.txt 1.56MB
labels.txt 1.22MB
total_train.txt 689KB
labels.txt 234KB
total_test.txt 231KB
test.txt 169KB
train.txt 159KB
test.txt 127KB
test.txt 124KB
test.txt 123KB
test.txt 123KB
test.txt 122KB
total_dev.txt 120KB
test.txt 98KB
dev.txt 88KB
train.txt 82KB
labels.txt 74KB
dev.txt 65KB
labels.txt 62KB
labels.txt 62KB
dev.txt 62KB
dev.txt 62KB
dev.txt 61KB
dev.txt 61KB
test.txt 57KB
dev.txt 49KB
labels.txt 35KB
test.txt 35KB
test.txt 30KB
test.txt 30KB
dev.txt 30KB
test.txt 28KB
test.txt 27KB
labels.txt 26KB
test.txt 24KB
共 125 条
- 1
- 2
资源评论
- 好酒3362024-05-17这个资源内容超赞,对我来说很有价值,很实用,感谢大佬分享~
- m0_750287012024-02-11资源不错,内容挺好的,有一定的使用价值,值得借鉴,感谢分享。
- 樱阳怪崎2024-04-27终于找到了超赞的宝藏资源,果断冲冲冲,支持!
云哲-吉吉2021
- 粉丝: 3981
- 资源: 1129
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Vue+NodeJS的学生社团管理系统(前后端代码)
- 基于SSM+JSP的快递管理系统(前后端代码)
- 全球火点数据-modis-2015-2023年
- YOLOv8完整网络结构图详细visio
- LCD1602电子时钟程序
- 西北太平洋热带气旋【灾害风险统计】及【登陆我国次数评估】数据集-1980-2023
- 全球干旱数据集【自校准帕尔默干旱程度指数scPDSI】-190101-202312-0.5x0.5
- 基于Python实现的VAE(变分自编码器)训练算法源代码+使用说明
- 全球干旱数据集【标准化降水蒸发指数SPEI-12】-190101-202312-0.5x0.5
- C语言小游戏-五子棋-详细代码可运行
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功