没有合适的资源？快使用搜索试试~ 我知道了~

文库首页行业研究行业报告后BERT时代：15个预训练模型对比分析与关键点探究.pdf

后BERT时代：15个预训练模型对比分析与关键点探究.pdf

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

0 下载量 135 浏览量 2023-08-12 12:59:28 上传评论收藏 1.32MB PDF 举报

温馨提示

试读

18页

后BERT时代：15个预训练模型对比分析与关键点探究.pdf

资源推荐

资源详情

资源评论

后BERT时代：15个预训练模型对⽐分析与关键点探究

JayLou

2019-08-17⼣⼩瑶的卖萌屋

前⾔

在⼩⼣之前写过的《NLP的游戏规则从此改写？从word2vec, ELMo到BERT》⼀⽂中，介绍了从word2vec到ELMo再到BERT的发展路径。⽽

在BERT出现之后的这⼤半年的时间⾥，模型预训练的⽅法⼜被Google、Facebook、微软、百度、OpenAI等极少数⼏个玩得起游戏的核⼼玩

家反复迭代了若⼲版，⼀次次的刷新我们这些吃⽠群众的案板上的⽠。

有没有感觉出⽠速度太快以⾄于吃速跟不上？不⽤担⼼，⼩⼣帮你们找来了这篇总结的恰到好处的⽂章，对ELMo以来的15个代表性的预训

练语⾔模型进⾏了多维度的对⽐和分析。尤其是近期找⼯作的⼩伙伴们注意啦，这篇⽂章⾥⾯提出来的⼀些问题很适合作为⾯试考点（划

掉，交流点）噢~

本⽂转载⾃知乎专栏《⾼能NLP之路》并进⾏了剪切和少量修改，作者JayLou，原⽂链接

https://zhuanlan.zhihu.com/p/76912493

⾸先上⼀张镇楼专⽤图，看⼀下ELMo以来的预训练语⾔模型发展的概况

然后上本⽂正餐，⼀个⾼能的question list，这也是本⽂写作的主线。

Question List

Q1：从不同维度对⽐各【预训练语⾔模型】？

Q2：基于深度学习的NLP特征抽取机制有哪些？各有哪些优缺点？

Q3：⾃回归和⾃编码语⾔模型各有什么优缺点？

Q4：单向模型的内核机制是怎样的？有哪些缺点？

Q5：Transformer内部机制的深⼊理解：

为什么是缩放点积，⽽不是点积模型？

相较于加性模型，点积模型具备哪些优点？

多头机制为什么有效？

Q6-Q10：BERT内核机制探究

BERT为什么如此有效？

BERT存在哪些优缺点？

BERT擅⻓处理哪些下游NLP任务？

BERT基于“字输⼊”还是“词输⼊”好？（对于中⽂任务）

BERT为什么不适⽤于⾃然语⾔⽣成任务（NLG）？

Q11-Q15：针对BERT原⽣模型的缺点，后续的BERT系列模型是：

如何改进【⽣成任务】的？

如何引⼊【知识】的？

如何引⼊【多任务学习机制】的？

如何改进【mask策略】的？

如何进⾏【精细调参】的？

Q16：XLNet提出的背景是怎样的？

Q17：XLNet为何如此有效：

为什么PLM可以实现双向上下⽂的建模？

怎么解决没有⽬标(target)位置信息的问题？

Q18：Transformer-XL怎么实现对⻓⽂本建模？

下⾯本⽂将从以下⼏个⽅⾯来对上述问题⼀⼀探讨

⼀. 不同视⻆下的预训练语⾔模型对⽐

⼆.预训练语⾔模型的基础：特征抽取机制+语⾔模型的分类

三.单向模型回顾+内核机制探究

四.BERT的内核机制探究

五.BERT系列模型进展介绍

六.XLNET的内核机制探究

七.预训练语⾔模型的未来

⼀、不同视⻆下的预训练语⾔模型对⽐

Q1：从不同维度对⽐【预训练语⾔模型】

从特征抽取、预训练语⾔模型⽬标、BERT系列模型的改进⽅向、特征表⽰4个视⻆，对⽐预训练语⾔模型：

不同的特征抽取机制

RNNs：ELMO/ULMFiT/SiATL；

Transformer：GPT1.0/GPT2.0/BERT系列模型；

Transformer-XL：XLNet；

不同的预训练语⾔⽬标

⾃编码（AutoEncode）：BERT系列模型；

⾃回归（AutoRegression）：单向模型（ELMO / ULMFiT / SiATL / GPT1.0 / GPT2.0）和XLNet；

BERT系列模型的改进

引⼊常识：ERNIE1.0 / ERNIE(THU) / ERNIE2.0（简称为“ERNIE系列”）；

引⼊多任务学习：MTDNN/ERNIE2.0；

基于⽣成任务的改进：MASS/UNILM；

不同的mask策略：WWM/ERNIE系列/SpanBERT；

精细调参：RoBERTa；

特征表⽰（是否能表⽰上下⽂）

单向特征表⽰：单向模型（ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0）；

双向特征表⽰：BERT系列模型+XLNet；

⼆、预训练语⾔模型的基础：特征抽取机制+语⾔模型的分类

Q2：基于深度学习的NLP特征抽取机制有哪些？各有哪些优缺点？

1）能否处理⻓距离依赖问题

⻓距离依赖建模能⼒：Transformer-XL > Transformer > RNNs > CNNs

MLP：不考虑序列（位置）信息，不能处理变⻓序列，如NNLM和word2vec；

CNNs：考虑序列（位置）信息，不能处理⻓距离依赖，聚焦于n-gram提取，pooling操作会导致序列（位置）信息丢失；

RNNs：天然适合处理序列（位置）信息，但仍不能处理⻓距离依赖（由于BPTT导致的梯度消失等问题），故⼜称之为“较⻓的短期记

忆单元(LSTM)”；

Transformer/Transformer-XL：self-attention解决⻓距离依赖，⽆位置偏差；

2）前馈/循环⽹络 or 串⾏/并⾏计算

MLP/CNNs/Transformer：前馈/并⾏

RNNs/ Transformer-XL：循环/串⾏：

3）计算时间复杂度（序列⻓度n，embedding size为d，filter⼤⼩k）

CNNs：

RNNs：

Self Attention：

Q3：⾃回归和⾃编码语⾔模型各有什么优缺点？

1）⾃回归语⾔模型

优点：

⽂本序列联合概率的密度估计，即为传统的语⾔模型，天然适合处理⾃然⽣成任务；

剩余17页未读，继续阅读

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

地理探险家

粉丝: 1052
资源: 5416

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

后BERT时代：15个预训练模型对比分析与关键点探究.pdf

后BERT时代：15个预训练模型对比分析与关键点探究.rar

NLP进入预训练模型时代：从word2vec,ELMo到BERT.pdf

BERT遇上知识图谱：预训练模型与知识图谱相结合的研究进展

bert-base-uncased 预训练模型

官方bert中文预训练模型

2019: 属于BERT预训练语言模型之年【附BERT 2019年研究进展最新论文】.rar

利用bert预训练模型生成句向量或词向量.zip

基于预训练模型的多标签专利分类研究.docx

TF2 BERT中文预训练模型

Python-Google官方发布BERT的TensorFlow代码和预训练模型

基于bert的幽默识别预训练模型

pytorch实现具备预训练参数加载功能的bert模型

人工智能-项目实践-预训练-BERT预训练模型字向量提取工具.zip

基于torch transformers 直接加载bert预训练模型计算句子相似度

NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar

python基于BERT的预训练模型，对多个大数据库进行预训练，并使用自定义的预训练模型进行微调的代码（4200字附详细步骤）

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史.pdf

BERT技术体系综述论文：40项分析探究BERT如何work.pdf

RoBERTa中文预训练模型.zip

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

4个亲测好用的ChatGPT4渠道

学术海报模板+论文科研+研究生

最新资源

李飞飞自传我看见的世界 The World I see