后BERT时代：15个预训练模型对比分析与关键点探究.rar

共1个文件

pdf：1个

版权申诉

NLP

127 浏览量 2023-10-18 17:38:59 上传评论收藏 1.14MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

后BERT时代：15个预训练模型对比分析与关键点探究.rar （1个子文件）

后BERT时代：15个预训练模型对比分析与关键点探究.pdf 1.32MB

后BERT时代：15个预训练模型对⽐分析与关键点探究

JayLou

2019-08-17⼣⼩瑶的卖萌屋

前⾔

在⼩⼣之前写过的《NLP的游戏规则从此改写？从word2vec, ELMo到BERT》⼀⽂中，介绍了从word2vec到ELMo再到BERT的发展路径。⽽

在BERT出现之后的这⼤半年的时间⾥，模型预训练的⽅法⼜被Google、Facebook、微软、百度、OpenAI等极少数⼏个玩得起游戏的核⼼玩

家反复迭代了若⼲版，⼀次次的刷新我们这些吃⽠群众的案板上的⽠。

有没有感觉出⽠速度太快以⾄于吃速跟不上？不⽤担⼼，⼩⼣帮你们找来了这篇总结的恰到好处的⽂章，对ELMo以来的15个代表性的预训

练语⾔模型进⾏了多维度的对⽐和分析。尤其是近期找⼯作的⼩伙伴们注意啦，这篇⽂章⾥⾯提出来的⼀些问题很适合作为⾯试考点（划

掉，交流点）噢~

本⽂转载⾃知乎专栏《⾼能NLP之路》并进⾏了剪切和少量修改，作者JayLou，原⽂链接

https://zhuanlan.zhihu.com/p/76912493

⾸先上⼀张镇楼专⽤图，看⼀下ELMo以来的预训练语⾔模型发展的概况

然后上本⽂正餐，⼀个⾼能的question list，这也是本⽂写作的主线。

Question List

Q1：从不同维度对⽐各【预训练语⾔模型】？

Q2：基于深度学习的NLP特征抽取机制有哪些？各有哪些优缺点？

Q3：⾃回归和⾃编码语⾔模型各有什么优缺点？

Q4：单向模型的内核机制是怎样的？有哪些缺点？

Q5：Transformer内部机制的深⼊理解：

为什么是缩放点积，⽽不是点积模型？

相较于加性模型，点积模型具备哪些优点？

多头机制为什么有效？

Q6-Q10：BERT内核机制探究

BERT为什么如此有效？

BERT存在哪些优缺点？

BERT擅⻓处理哪些下游NLP任务？

BERT基于“字输⼊”还是“词输⼊”好？（对于中⽂任务）

BERT为什么不适⽤于⾃然语⾔⽣成任务（NLG）？

Q11-Q15：针对BERT原⽣模型的缺点，后续的BERT系列模型是：

如何改进【⽣成任务】的？

如何引⼊【知识】的？

如何引⼊【多任务学习机制】的？

如何改进【mask策略】的？

如何进⾏【精细调参】的？

Q16：XLNet提出的背景是怎样的？

Q17：XLNet为何如此有效：

为什么PLM可以实现双向上下⽂的建模？

怎么解决没有⽬标(target)位置信息的问题？

Q18：Transformer-XL怎么实现对⻓⽂本建模？

下⾯本⽂将从以下⼏个⽅⾯来对上述问题⼀⼀探讨

⼀. 不同视⻆下的预训练语⾔模型对⽐

⼆.预训练语⾔模型的基础：特征抽取机制+语⾔模型的分类

三.单向模型回顾+内核机制探究

四.BERT的内核机制探究

五.BERT系列模型进展介绍

六.XLNET的内核机制探究

七.预训练语⾔模型的未来

⼀、不同视⻆下的预训练语⾔模型对⽐

Q1：从不同维度对⽐【预训练语⾔模型】

从特征抽取、预训练语⾔模型⽬标、BERT系列模型的改进⽅向、特征表⽰4个视⻆，对⽐预训练语⾔模型：

不同的特征抽取机制

RNNs：ELMO/ULMFiT/SiATL；

Transformer：GPT1.0/GPT2.0/BERT系列模型；

Transformer-XL：XLNet；

不同的预训练语⾔⽬标

⾃编码（AutoEncode）：BERT系列模型；

⾃回归（AutoRegression）：单向模型（ELMO / ULMFiT / SiATL / GPT1.0 / GPT2.0）和XLNet；

BERT系列模型的改进

引⼊常识：ERNIE1.0 / ERNIE(THU) / ERNIE2.0（简称为“ERNIE系列”）；

引⼊多任务学习：MTDNN/ERNIE2.0；

基于⽣成任务的改进：MASS/UNILM；

不同的mask策略：WWM/ERNIE系列/SpanBERT；

精细调参：RoBERTa；

特征表⽰（是否能表⽰上下⽂）

单向特征表⽰：单向模型（ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0）；

双向特征表⽰：BERT系列模型+XLNet；

⼆、预训练语⾔模型的基础：特征抽取机制+语⾔模型的分类

Q2：基于深度学习的NLP特征抽取机制有哪些？各有哪些优缺点？

1）能否处理⻓距离依赖问题

⻓距离依赖建模能⼒：Transformer-XL > Transformer > RNNs > CNNs

MLP：不考虑序列（位置）信息，不能处理变⻓序列，如NNLM和word2vec；

CNNs：考虑序列（位置）信息，不能处理⻓距离依赖，聚焦于n-gram提取，pooling操作会导致序列（位置）信息丢失；

RNNs：天然适合处理序列（位置）信息，但仍不能处理⻓距离依赖（由于BPTT导致的梯度消失等问题），故⼜称之为“较⻓的短期记

忆单元(LSTM)”；

Transformer/Transformer-XL：self-attention解决⻓距离依赖，⽆位置偏差；

2）前馈/循环⽹络 or 串⾏/并⾏计算

MLP/CNNs/Transformer：前馈/并⾏

RNNs/ Transformer-XL：循环/串⾏：

3）计算时间复杂度（序列⻓度n，embedding size为d，filter⼤⼩k）

CNNs：

RNNs：

Self Attention：

Q3：⾃回归和⾃编码语⾔模型各有什么优缺点？

1）⾃回归语⾔模型

优点：

⽂本序列联合概率的密度估计，即为传统的语⾔模型，天然适合处理⾃然⽣成任务；

缺点：

联合概率按照⽂本序列从左⾄右分解（顺序拆解），⽆法通过上下⽂信息进⾏双向特征表征；

代表模型：ELMO/GPT1.0/GPT2.0；

改进：XLNet将传统的⾃回归语⾔模型进⾏推⼴，将顺序拆解变为随机拆解（排列语⾔模型），产⽣上下⽂相关的双向特征表⽰；

2）⾃编码语⾔模型

优点：本质为降噪⾃编码特征表⽰，通过引⼊噪声[MASK]构建MLM，获取上下⽂相关的双向特征表⽰；

缺点：引⼊独⽴性假设，为联合概率的有偏估计，没有考虑预测[MASK]之间的相关性

不适合直接处理⽣成任务，MLM预训练⽬标的设置造成预训练过程和⽣成过程不⼀致；

预训练时的[MASK]噪声在finetune阶段不会出现，造成两阶段不匹配问题；

代表模型：BERT系列模型；

三、单向模型回顾+内核机制探究

Q4：单向模型的内核机制是怎样的？有哪些缺点？

1）ELMo (Allen Institute)[6]

要点：

引⼊双向语⾔模型，其实是2个单向语⾔模型（前向和后向）的集成；

通过保存预训练好的2层biLSTM，通过特征集成或finetune应⽤于下游任务；

缺点：

本质上为⾃回归语⾔模型，只能获取单向的特征表⽰，不能同时获取上下⽂表⽰；

LSTM不能解决⻓距离依赖。

为什么不能⽤biLSTM构建双向语⾔模型？

不能采取2层biLSTM同时进⾏特征抽取构建双向语⾔模型，否则会出现标签泄漏的问题；因此ELMO前向和后向的LSTM参数独

⽴，共享词向量，独⽴构建语⾔模型；

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

后BERT时代：15个预训练模型对比分析与关键点探究.rar

后BERT时代：15个预训练模型对比分析与关键点探究.pdf

官方bert中文预训练模型

NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar

2019: 属于BERT预训练语言模型之年【附BERT 2019年研究进展最新论文】.rar

BERT遇上知识图谱：预训练模型与知识图谱相结合的研究进展

bert-base-uncased 预训练模型

吊打BERT-Large的小型预训练模型ELECTRA终于开源！真相却让人---.rar

基于预训练模型的多标签专利分类研究.docx

TF2 BERT中文预训练模型

Python-Google官方发布BERT的TensorFlow代码和预训练模型

基于bert的幽默识别预训练模型

人工智能-项目实践-预训练-BERT预训练模型字向量提取工具.zip

基于torch transformers 直接加载bert预训练模型计算句子相似度

pytorch实现具备预训练参数加载功能的bert模型

NLP进入预训练模型时代：从word2vec,ELMo到BERT.pdf

python基于BERT的预训练模型，对多个大数据库进行预训练，并使用自定义的预训练模型进行微调的代码（4200字附详细步骤）

Tensorflow2.0 Bert模型.rar

RoBERTa中文预训练模型.zip

Python-使用预训练语言模型BERT做中文NER

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

李飞飞自传 我看见的世界 The World I see

4个亲测好用的ChatGPT4渠道

2023泛娱乐社交出海手册-ZEGO即构科技

最新资源

李飞飞自传我看见的世界 The World I see