# albert-chinese-large-webqa
基于百度webqa与dureader数据集训练的Albert Large QA模型
## 数据来源
+ 百度WebQA 1.0数据集
+ 百度Dureader数据集
## 训练方法
整理后形成类似squad数据集的形式,包含训练数据705139条,验证数据69638条。基于google提供的albert chinese large模型进行finetune。最终f1约0.7
+ 参数
+ learning_rate 1e-5
+ max_seq_length 512
+ max_query_length 50
+ max_answer_length 300
+ doc_stride 256
+ num_train_epochs 2
+ warmup_steps 1000
+ per_gpu_train_batch_size 8
+ gradient_accumulation_steps 3
+ n_gpu 2 (Nvidia Tesla P100)
## Metric
![metric](https://github.com/wptoux/albert-chinese-large-webqa/raw/master/webqa-tb.png)
## 使用方法
```
from transformers import AutoModelForQuestionAnswering, BertTokenizer
model = AutoModelForQuestionAnswering.from_pretrained('./model/albert-chinese-large-qa')
tokenizer = BertTokenizer.from_pretrained('./model/albert-chinese-large-qa')
# or use transformers repo
model = AutoModelForQuestionAnswering.from_pretrained('wptoux/albert-chinese-large-qa')
tokenizer = BertTokenizer.from_pretrained('wptoux/albert-chinese-large-qa')
```
## 存在的问题
transformers实现的SquadExample类缺乏对中文的支持,导致其推理结果会存在问题,所以Metric中的F1和Exact会比真实结果低。但是这个不会影响到训练。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
Albert Large QA模型.zip (14个子文件)
albert-chinese-large-webqa-master
webQA.ipynb 64KB
merge.ipynb 2KB
LICENSE 11KB
runs
Apr18_11-24-17_2fa37feda8a0
events.out.tfevents.1587209057.2fa37feda8a0.140401.0 37KB
train.ipynb 14KB
dureader.ipynb 1.73MB
models
albert-chinese-large-qa
pytorch_model.bin 63.14MB
config.json 1KB
tokenizer_config.json 24B
special_tokens_map.json 112B
vocab.txt 107KB
.gitignore 2KB
webqa-tb.png 107KB
README.md 1KB
共 14 条
- 1
资源评论
小正太浩二
- 粉丝: 194
- 资源: 5904
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功