NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar

共1个文件

pdf：1个

版权申诉

76 浏览量 2023-10-18 17:38:52 上传评论收藏 895KB RAR 举报

自然语言处理（NLP）是人工智能领域的一个重要分支，它主要关注如何使计算机理解、解析、生成人类语言。近年来，NLP技术的发展取得了显著的进步，这在很大程度上归功于预训练模型的出现。本资料《NLP进入预训练模型时代：从word2vec,ELMo到BERT》将详细阐述这一演变过程，以及这些模型如何推动了AI、生成内容（AIGC）、自然语言处理（NLP）和知识图谱（KG）的发展。我们从word2vec开始，这是一个基于深度学习的词嵌入方法，由Tomas Mikolov等人在2013年提出。word2vec通过两种模型——连续词袋模型（CBOW）和Skip-gram模型，实现了将词汇转换为向量表示，使得词汇之间的语义关系在数学空间中得以体现。这种表示方式使得计算机可以更好地理解和处理自然语言，为后续的NLP任务提供了强大的基础。然后是ELMo（Embeddings from Language Models），由Ryan Howard和Jason Phang在2018年提出。ELMo不同于word2vec，它不是静态的词向量，而是根据词在句子中的上下文动态生成的向量表示。ELMo通过预训练的语言模型，捕捉到了词语的多义性和依赖上下文的含义，进一步提升了NLP任务的性能，特别是在情感分析、命名实体识别等任务中表现突出。我们来到了BERT（Bidirectional Encoder Representations from Transformers），由Google的研究人员在2018年推出。BERT是一种基于Transformer架构的预训练模型，其创新之处在于引入了双向上下文理解。与ELMo不同，BERT不仅考虑词前面的上下文，还考虑词后面的上下文，从而能够更全面地理解词语的意义。BERT的出现引领了预训练模型的新潮流，它在多项NLP基准测试中取得了前所未有的优秀成绩，如GLUE和SQuAD。这些预训练模型的出现，极大地推动了AI和NLP领域的进步。它们不仅提高了自然语言理解的准确度，还降低了新任务的训练成本。对于AIGC（人工智能生成内容），预训练模型能够帮助生成更加自然、连贯的文本，提高机器写作的质量。同时，预训练模型也为构建大规模知识图谱提供了强大的工具，能够更有效地提取和理解知识，从而增强智能系统的信息处理能力。《NLP进入预训练模型时代：从word2vec,ELMo到BERT》这个资料深入剖析了这些关键模型的工作原理和影响，对于理解NLP技术的发展历程和未来趋势具有重要价值。通过学习这些模型，我们可以更好地掌握NLP的核心技术，进一步推动AI在各种应用场景中的落地。

资源推荐

资源详情

资源评论

收起资源包目录

NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar （1个子文件）

NLP进入预训练模型时代：从word2vec,ELMo到BERT.pdf 1.04MB

NLP的游戏规则从此改写？从word2vec, ELMo到BERT

原创

⼣⼩瑶

2018-10-23⼣⼩瑶的卖萌屋

来⾃专辑

卖萌屋@⾃然语⾔处理

前⾔

还记得不久之前的机器阅读理解领域，微软和阿⾥在SQuAD上分别以R-Net+和SLQA超过⼈类，百度在MS MARCO上凭借

V-Net霸榜并在BLEU上超过⼈类。这些⽹络可以说⼀个⽐⼀个复杂，似乎“如何设计出⼀个更work的task-specific的⽹络"变

成了NLP领域政治正确的研究⽅向。⽽在这种⻛向下，不管word2vec也好，glove也好，fasttext也好，都只能充当⼀个锦上

添花的作⽤。说好的迁移学习、预训练呢？在NLP似乎始终没成主⻆。

⼩⼣写这篇⽂章时也有点惭愧，搞了好⼀段时间的表⽰与迁移，虽然早在直觉上感觉这应该是NLP的核⼼问题，但是也没做

出⼀些令⾃⼰满意的实验结果，直到⼏天前的BERT出来，才感觉是贫穷限制了我的想象⼒╮(￣▽￣””)╭（划掉），才感觉

⾃⼰着眼的点还是太窄了。

每个⼈对于BERT的理解都不⼀样，本⽂就试着从word2vec和ELMo的⻆度说说BERT。下⾯先简单回顾⼀下word2vec和

ELMo中的精华，已经理解很透彻的⼩伙伴可以快速下拉到BERT章节啦。

word2vec

说来也都是些俗套⽽乐此不疲⼀遍遍写的句⼦，2013年Google的word2vec⼀出，让NLP各个领域遍地开花，⼀时间好像不

⽤上预训练的词向量都不好意思写论⽂了。⽽word2vec是什么呢？

模型

显然就是⼀个“线性”语⾔模型。既然我们的⽬标是学习词向量，⽽且词向量在语义上要⽀持⼀些”线性的语义运算“，如”皇帝-

皇后=男-⼥“（忽略武则天），那么使⽤⼀个线性模型⾃然⾜够了，跑的⼜快⼜能完成任务，⾮常优雅。

另外word2vec的⼀个精髓是把语⾔模型的那⼀套softmax加速⽅法也给顺便优化了，⽤⼀个看似开脑洞的“负采样”⽅法来代

替传统的层级softmax和NCE做法。⽽这个名字⾼⼤上的“负采样”到底是什么呢？

负采样

我们知道对于训练语⾔模型来说，softmax层⾮常难算，毕竟你要预测的是当前位置是哪个词，那么这个类别数就等同于词

典规模，因此动辄⼏万⼏⼗万的类别数，算softmax函数当然很费⼒啦。但是，如果我们的⽬标不在于训练⼀个精准的语⾔

模型，⽽只是为了训练得到语⾔模型的副产物-词向量，那么其实只需要⽤这⾥隐含的⼀个计算代价更⼩的“⼦任务”就好啦。

想⼀想，给你10000张写有数字的卡⽚，让你找出其中的最⼤值，是不是特别费⼒？但是如果把⾥⾯的最⼤值事先抽出来，

跟五张随机抽取的卡⽚混到⼀起，让你选出其中的最⼤值，是不是就容易多啦？

负采样就是这个思想，即不直接让模型从整个词表找最可能的词了，⽽是直接给定这个词（即正例）和⼏个随机采样的噪声

词（即采样出来的负例），只要模型能从这⾥⾯找出正确的词就认为完成⽬标啦。所以这个想法对应的⽬标函数即：

这⾥是正例，是随机采样出来的负例（采样k个），是sigmoid函数。然后即最⼤化正例的似然，最⼩化负例的

似然。

这种负采样的思想被成功的应⽤在了BERT模型中，只不过粒度从词变成了句⼦。不要急，慢慢往后看〜

char-level与上下⽂

虽然2015年到2017年也有不少⼯作试图从char-level⼊⼿，另辟蹊径，摆脱预训练词向量的游戏规则，然⽽实测只是昙花⼀

现，很快被怼了[8][9]。不过，⼈们同时也意识到了char-level的⽂本中也蕴含了⼀些word-level的⽂本所难以描述的模式，

因此⼀⽅⾯出现了可以学习到char-level特征的词向量FastText[5]，另⼀⽅⾯在有监督任务中开始通过浅层CNN、

HIghwayNet、RNN等⽹络引⼊char-level⽂本的表⽰。

不过，⾄此为⽌，词向量都是上下⽂⽆关的。也就是说，同⼀个词在不同的语境中总是相同的词向量，很明显这就导致词向

量模型缺乏词义消歧（WSD）的能⼒。于是，⼈们为了让词向量变得上下⽂相关，开始在具体的下游任务中基于词向量

sequence来做encoding。

最常⻅的encoding⽅法当然就是⽤RNN系的⽹络，除此之外还有成功的⽤深层CNN来encoding的⼯作（如⽂本分类[6]，机

器翻译[7]，机器阅读理解[4]），然！⽽！Google说了，CNN也太俗了，我们要⽤全连接⽹络！（划掉）self-attention！于

是就有了为NLP深度定制的Transformer模型[11]，Transformer的提出是在机器翻译任务上，但是其在其他领域如检索式对

话[3]上也发挥了巨⼤的威⼒。

不过，既然发现在各个NLP任务中基本都有encoding的需要，那么为啥不在最开始就让词向量拥有上下⽂相关的能⼒呢？于

是有了ELMo[2]。

ELMo

当然，实际上ELMo不是第⼀个试图产⽣上下⽂相关的词向量的模型，不过确是⼀个让你有充分理由放弃word2vec的模型

（⼿动微笑），毕竟牺牲点推理速度换来辣么多的性能提升，⼤部分情况下超值呀〜ELMo在模型层上就是⼀个stacked bi-

lstm（严格来说是训练了两个单向的stacked lstm），所以当然有不错的encoding能⼒。同时其源码实现上也⽀持⽤

Highway Net或者CNN来额外引⼊char-level encoding。训练它的话⾃然也是语⾔模型标准的最⼤化似然函数，即

不过这个ELMo的亮点当然不在于模型层，⽽是其通过实验间接说明了在多层的RNN中，不同层学到的特征其实是有差异

的，因此ELMo提出在预训练完成并迁移到下游NLP任务中时，要为原始词向量层和每⼀层RNN的隐层都设置⼀个可训练参

数，这些参数通过softmax层归⼀化后乘到其相应的层上并求和便起到了weighting的作⽤，然后对“加权和”得到的词向量再

通过⼀个参数来进⾏词向量整体的scaling以更好的适应下游任务。

ps:其实最后这个参数还是⾮常重要的，⽐如word2vec中，⼀般来说cbow和sg学出来的词向量⽅差差异⽐较⼤，这时

那个⽅差跟适合下游任务后续层⽅差匹配的词向量就收敛更快，更容易有更好的表现

数学表达式如下

其中L=2就是ELMo论⽂中的设定，j=0时代表原始词向量层，j=1是lstm的第⼀隐层，j=2是第⼆隐层。是参数被

softmax归⼀化之后的结果（也就是说）。

通过这样的迁移策略，那些对词义消歧有需求的任务就更容易通过训练给第⼆隐层⼀个很⼤的权重，⽽对词性、句法有明显

需求的任务则可能对第⼀隐层的参数学习到⽐较⼤的值（实验结论）。总之，这样便得到了⼀份”可以被下游任务定制“的特

征更为丰富的词向量，效果⽐word2vec好得多也就不⾜为奇了。

不过话说回来，ELMo的⽬标也仅仅是学习到上下⽂相关的、更强⼤的词向量，其⽬的依然是为下游任务提供⼀个扎实的根

基，还没有想要弑君称王的意思。

⽽我们知道，仅仅是对⽂本进⾏充分⽽强⼤的encoding（即得到每个词位⾮常精准丰富的特征）是远不够覆盖所有NLP任务

的。在QA、机器阅读理解（MRC）、⾃然语⾔推理（NLI）、对话等任务中，还有很多更复杂的模式需要捕捉，⽐如句间

关系。为此，下游任务中的⽹络会加⼊各种花式attention（参考NLI、MRC、Chatbot中的SOTA们）。

⽽随着捕捉更多神奇模式的需要，研究者们为每个下游任务定制出各种各样的⽹络结构，导致同⼀个模型，稍微⼀换任务就

挂掉了，甚⾄在同⼀个任务的情况下换另⼀种分布的数据集都会出现显著的性能损失，这显然不符合⼈类的语⾔⾏为呀〜要

知道⼈类的generalization能⼒是⾮常强的，这就说明，或许现在整个NLP的发展轨迹就是错的，尤其是在SQuAD的带领

下，穷尽各种trick和花式结构去刷榜，真正之于NLP的意义多⼤呢？

好像扯远了，不过所幸，这条越⾛越偏的道路终于被⼀个模型shutdown了，那就是⼏天前Google发布的Bidirectional

Encoder Representations from Transformers (BERT)[1].

BERT

这篇paper的最重要意义不在于⽤了什么模型，也不在于怎么训练的，⽽是它提出⼀种全新的游戏规则。

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 2w+
资源: 635

NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar

NLP进入预训练模型时代：从word2vec,ELMo到BERT.pdf

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

NLP的游戏规则从此改写？从word2vec,-ELMo到BERT.rar

NLP-Projects:word2vec，句子2vec，机器阅读理解，对话系统，文本分类，预训练的语言模型（即XLNet，BERT，ELMo，GPT），序列标签，信息检索，信息提取（即实体，关系和事件提取），知识图，文本生成，网络嵌入

后BERT时代：15个预训练模型对比分析与关键点探究.rar

自然语言处理-基于预训练模型的方法-笔记

NLP：自然语言处理的预训练模型Pre-trained Models for NLP- A Survey

自然语言处理-基于预训练模型的方法 笔记

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史.pdf

初识预训练模型：elmo1

从Word2Vec到BERT：上下文嵌入 (Contextual Embedding) 最新综述论文.pdf

自然语言处理Word2Vec.pdf

word2vec 中的数学原理详解.pdf

基于Python进行自然语言处理相关实践，如新词发现，主题模型，隐马尔模型词性标注，Word2Vec，情感分析

word2vec班第2课：词向量到word2vec与相关应用

谁说发 paper 一定要追快打新？2021年，研究 word2vec 也能中顶会！ .rar

预训练模型.pptx————电子版_pptx版

从word embedding到chatGPT，预训练模型的演进总结.pdf

自然语言预训练模型大总结

word2vec相关论文

面向自然语言处理的预训练技术研究综述.pdf

预训练模型关键问题梳理与面试必备高频FAQ.pdf

李宏毅 BERT PPT

华为mindspore培训资料：BERT-slides.pptx

【实验报告】 ELMO模型.ppt

bert v2.0.pdf

基于语言模型的预训练技术研究综述

最新资源

自然语言处理-基于预训练模型的方法笔记