没有合适的资源?快使用搜索试试~ 我知道了~
后BERT时代:15个预训练模型对比分析与关键点探究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 135 浏览量
2023-08-12
12:59:28
上传
评论
收藏 1.32MB PDF 举报
温馨提示
试读
18页
后BERT时代:15个预训练模型对比分析与关键点探究.pdf
资源推荐
资源详情
资源评论
后BERT时代:15个预训练模型对⽐分析与关键点探究
JayLou
2019-08-17⼣⼩瑶的卖萌屋
前⾔
在⼩⼣之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》 ⼀⽂中,介绍了从word2vec到ELMo再到BERT的发展路径。⽽
在BERT出现之后的这⼤半年的时间⾥,模型预训练的⽅法⼜被Google、Facebook、微软、百度、OpenAI等极少数⼏个玩得起游戏的核⼼玩
家反复迭代了若⼲版,⼀次次的刷新我们这些吃⽠群众的案板上的⽠。
有没有感觉出⽠速度太快以⾄于吃速跟不上?不⽤担⼼,⼩⼣帮你们找来了这篇总结的恰到好处的⽂章,对ELMo以来的15个代表性的预训
练语⾔模型进⾏了多维度的对⽐和分析。尤其是近期找⼯作的⼩伙伴们注意啦,这篇⽂章⾥⾯提出来的⼀些问题很适合作为⾯试考点(划
掉,交流点)噢~
本⽂转载⾃知乎专栏《⾼能NLP之路》并进⾏了剪切和少量修改,作者JayLou,原⽂链接
https://zhuanlan.zhihu.com/p/76912493
⾸先上⼀张镇楼专⽤图,看⼀下ELMo以来的预训练语⾔模型发展的概况
然后上本⽂正餐,⼀个⾼能的question list,这也是本⽂写作的主线。
Question List
Q1:从不同维度对⽐各【预训练语⾔模型】?
Q2:基于深度学习的NLP特征抽取机制有哪些?各有哪些优缺点?
Q3:⾃回归和⾃编码语⾔模型各有什么优缺点?
Q4:单向模型的内核机制是怎样的?有哪些缺点?
Q5:Transformer内部机制的深⼊理解:
为什么是缩放点积,⽽不是点积模型?
相较于加性模型,点积模型具备哪些优点?
多头机制为什么有效?
Q6-Q10:BERT内核机制探究
BERT为什么如此有效?
BERT存在哪些优缺点?
BERT擅⻓处理哪些下游NLP任务?
BERT基于“字输⼊”还是“词输⼊”好?(对于中⽂任务)
BERT为什么不适⽤于⾃然语⾔⽣成任务(NLG)?
Q11-Q15:针对BERT原⽣模型的缺点,后续的BERT系列模型是:
如何改进【⽣成任务】的?
如何引⼊【知识】的?
如何引⼊【多任务学习机制】的?
如何改进【mask策略】的?
如何进⾏【精细调参】的?
Q16:XLNet提出的背景是怎样的?
Q17:XLNet为何如此有效:
为什么PLM可以实现双向上下⽂的建模?
怎么解决没有⽬标(target)位置信息的问题?
Q18:Transformer-XL怎么实现对⻓⽂本建模?
下⾯本⽂将从以下⼏个⽅⾯来对上述问题⼀⼀探讨
⼀. 不同视⻆下的预训练语⾔模型对⽐
⼆.预训练语⾔模型的基础:特征抽取机制+语⾔模型的分类
三.单向模型回顾+内核机制探究
四.BERT的内核机制探究
五.BERT系列模型进展介绍
六.XLNET的内核机制探究
七.预训练语⾔模型的未来
⼀、不同视⻆下的预训练语⾔模型对⽐
Q1:从不同维度对⽐【预训练语⾔模型】
从特征抽取、预训练语⾔模型⽬标、BERT系列模型的改进⽅向、特征表⽰4个视⻆,对⽐预训练语⾔模型:
不同的特征抽取机制
RNNs:ELMO/ULMFiT/SiATL;
Transformer:GPT1.0/GPT2.0/BERT系列模型;
Transformer-XL:XLNet;
不同的预训练语⾔⽬标
⾃编码(AutoEncode):BERT系列模型;
⾃回归(AutoRegression):单向模型(ELMO / ULMFiT / SiATL / GPT1.0 / GPT2.0)和XLNet;
BERT系列模型的改进
引⼊常识:ERNIE1.0 / ERNIE(THU) / ERNIE2.0(简称为“ERNIE系列”);
引⼊多任务学习:MTDNN/ERNIE2.0;
基于⽣成任务的改进:MASS/UNILM;
不同的mask策略:WWM/ERNIE系列/SpanBERT;
精细调参:RoBERTa;
特征表⽰(是否能表⽰上下⽂)
单向特征表⽰:单向模型(ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0);
双向特征表⽰:BERT系列模型+XLNet;
⼆、预训练语⾔模型的基础:特征抽取机制+语⾔模型的分类
Q2:基于深度学习的NLP特征抽取机制有哪些?各有哪些优缺点?
1)能否处理⻓距离依赖问题
⻓距离依赖建模能⼒:Transformer-XL > Transformer > RNNs > CNNs
MLP:不考虑序列(位置)信息,不能处理变⻓序列,如NNLM和word2vec;
CNNs:考虑序列(位置)信息,不能处理⻓距离依赖,聚焦于n-gram提取,pooling操作会导致序列(位置)信息丢失;
RNNs:天然适合处理序列(位置)信息,但仍不能处理⻓距离依赖(由于BPTT导致的梯度消失等问题),故⼜称之为“较⻓的短期记
忆单元(LSTM)”;
Transformer/Transformer-XL:self-attention解决⻓距离依赖,⽆位置偏差;
2)前馈/循环⽹络 or 串⾏/并⾏计算
MLP/CNNs/Transformer:前馈/并⾏
RNNs/ Transformer-XL:循环/串⾏:
3)计算时间复杂度(序列⻓度n,embedding size为d,filter⼤⼩k)
CNNs:
RNNs:
Self Attention:
Q3:⾃回归和⾃编码语⾔模型各有什么优缺点?
1)⾃回归语⾔模型
优点:
⽂本序列联合概率的密度估计,即为传统的语⾔模型,天然适合处理⾃然⽣成任务;
剩余17页未读,继续阅读
资源评论
地理探险家
- 粉丝: 1052
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Javascript和Vue的微信小程序抽奖打地鼠游戏设计源码 - 抽奖打地鼠
- 基于Python和Javascript的车展大屏演示前后端web应用设计源码 - autoshow
- 基于Javascript和微信小程序的Anna设计源码
- 基于Java的仿制品设计源码 - bilibili
- 基于Javascript的影视动画设计源码 - cad
- 基于Java和深度学习的瓦斯浓度预测系统后端设计源码 - 瓦斯浓度预测后端
- Screenshot_20240528_103010.jpg
- 基于Python的新能源承载力计算及界面设计源码 - HAINING-DG
- 基于Java的本科探索学习项目设计源码 - 本科探索
- 基于Javascript和Python的微商城项目设计源码 - MicroMall
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功