AlbertLargeQA模型.zip_albert模型下载资源-CSDN文库

共14个文件

ipynb：4个

json：3个

txt：1个

版权申诉

毕业设计

Java源码

122 浏览量 2023-07-02 11:36:07 上传评论收藏 59.16MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Albert Large QA模型.zip （14个子文件）

albert-chinese-large-webqa-master

webQA.ipynb 64KB

merge.ipynb 2KB

LICENSE 11KB

runs

Apr18_11-24-17_2fa37feda8a0

events.out.tfevents.1587209057.2fa37feda8a0.140401.0 37KB

train.ipynb 14KB

dureader.ipynb 1.73MB

models

albert-chinese-large-qa

pytorch_model.bin 63.14MB

config.json 1KB

tokenizer_config.json 24B

special_tokens_map.json 112B

vocab.txt 107KB

.gitignore 2KB

webqa-tb.png 107KB

README.md 1KB

# albert-chinese-large-webqa 基于百度webqa与dureader数据集训练的Albert Large QA模型 ## 数据来源 + 百度WebQA 1.0数据集 + 百度Dureader数据集 ## 训练方法整理后形成类似squad数据集的形式，包含训练数据705139条，验证数据69638条。基于google提供的albert chinese large模型进行finetune。最终f1约0.7 + 参数 + learning_rate 1e-5 + max_seq_length 512 + max_query_length 50 + max_answer_length 300 + doc_stride 256 + num_train_epochs 2 + warmup_steps 1000 + per_gpu_train_batch_size 8 + gradient_accumulation_steps 3 + n_gpu 2 (Nvidia Tesla P100) ## Metric ![metric](https://github.com/wptoux/albert-chinese-large-webqa/raw/master/webqa-tb.png) ## 使用方法 ``` from transformers import AutoModelForQuestionAnswering, BertTokenizer model = AutoModelForQuestionAnswering.from_pretrained('./model/albert-chinese-large-qa') tokenizer = BertTokenizer.from_pretrained('./model/albert-chinese-large-qa') # or use transformers repo model = AutoModelForQuestionAnswering.from_pretrained('wptoux/albert-chinese-large-qa') tokenizer = BertTokenizer.from_pretrained('wptoux/albert-chinese-large-qa') ``` ## 存在的问题 transformers实现的SquadExample类缺乏对中文的支持，导致其推理结果会存在问题，所以Metric中的F1和Exact会比真实结果低。但是这个不会影响到训练。

评论收藏

内容反馈

版权申诉