没有合适的资源?快使用搜索试试~ 我知道了~
covid-twitter-bert:用于分析COVID-19 Twitter数据的预训练BERT模型
共63个文件
py:24个
txt:10个
gitignore:4个
需积分: 46 5 下载量 61 浏览量
2021-02-06
07:55:49
上传
评论 3
收藏 3.54MB ZIP 举报
温馨提示
COVID-Twitter-BERT COVID-Twitter-BERT(CT-BERT)是基于变压器的模型,该模型在有关COVID-19的大量Twitter消息集上进行了预训练。 v2模型在9700万条推文上进行了训练(1.2B训练示例)。 当在特定领域的数据集上使用时,我们的评估表明,与标准BERT-Large模型相比,该模型的边际性能提高了10–30%。 大多数改进都显示在与COVID-19相关的内容以及类似Twitter的消息中。 该存储库包含所有代码以及对和笔记本中使用的模型和数据集的引用,以对您自己的数据集上的CT-BERT进行微调。 如果您最终使用我们的作品,请引用:
资源详情
资源评论
资源推荐
收起资源包目录
covid-twitter-bert-master.zip (63个子文件)
covid-twitter-bert-master
sync_bucket_data.py 3KB
report
v1
main.tex 22KB
arxiv.sty 7KB
main.pdf 81KB
refs.bib 4KB
fig1.pdf 14KB
fig2.pdf 20KB
preprocess
create_predict_data.py 7KB
prepare_pretrain_data.py 7KB
create_pretrain_data.py 8KB
create_finetune_data.py 8KB
pretrain_helpers.py 13KB
logs
.gitignore 14B
utils
misc.py 1KB
analysis.py 2KB
optimizer.py 9KB
finetune_helpers.py 4KB
preprocess.py 6KB
model_training_utils.py 24KB
config.py 2KB
CT_BERT_Huggingface_(GPU_training).ipynb 121KB
.gitmodules 106B
configs
bert_config_covid_twitter_bert.json 314B
bert_config_large_uncased_wwm.json 314B
bert_config_large_uncased.json 314B
bert_config_multi_cased.json 315B
run_finetune.py 19KB
convert_tf2_to_pytorch
convert_tf2_to_pytorch_classifier.py 11KB
convert_tf2_to_pytorch.py 9KB
convert_tf2_to_pytorch_pretrain.py 12KB
.gitignore 47B
test_classifier.py 4KB
test_converted_models.py 2KB
images
COVID-Twitter-BERT-graph.jpeg 29KB
COVID-Twitter-BERT.png 1.11MB
COVID-Twitter-BERT_small.png 47KB
.gitkeep 1B
COVID-Twitter-BERT-medium.png 93KB
scripts
convert_checkpoint_v1_to_v2.py 1KB
run_finetune.sh 10KB
download_vocab_files.py 1KB
run_pretrain.sh 11KB
playground
test_tokenize.py 1KB
requirements.txt 161B
datasets
covid_category
covid_category.csv 178KB
README.md 1KB
LICENSE 1KB
run_pretrain.py 14KB
README.md 10KB
vocabs
bert-large-cased-vocab.txt 208KB
bert-base-uncased-vocab.txt 226KB
bert-large-uncased-whole-word-masking-vocab.txt 226KB
bert-large-uncased-vocab.txt 226KB
bert-base-multilingual-uncased-vocab.txt 851KB
bert-multi-cased-vocab.txt 972KB
bert-large-cased-whole-word-masking-vocab.txt 208KB
bert-base-cased-vocab.txt 208KB
bert-base-multilingual-cased-vocab.txt 972KB
tensorflow_models
README_pretrain.md 3KB
Finetune_COVID_Twitter_BERT.ipynb 32KB
data
.gitignore 14B
run_predict.py 13KB
.gitignore 2KB
共 63 条
- 1
居居是居居啦
- 粉丝: 28
- 资源: 4657
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 本资源库是关于“Java Collection Framework API”的参考资料,是 Java 开发社区的重要贡献,旨在提供有关 Java 语言学院 API 的实践示例和递归教育关系 .zip
- 插件: e2eFood.dll
- 打造最强的Java安全研究与安全开发面试题库,帮助师傅们找到满意的工作.zip
- (源码)基于Spark的实时用户行为分析系统.zip
- (源码)基于Spring Boot和Vue的个人博客后台管理系统.zip
- 将流行的 ruby faker gem 引入 Java.zip
- (源码)基于C#和ArcGIS Engine的房屋管理系统.zip
- (源码)基于C语言的Haribote操作系统项目.zip
- (源码)基于Spring Boot框架的秒杀系统.zip
- (源码)基于Qt框架的待办事项管理系统.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0