阅读原⽂
喜欢此内容的⼈还喜欢
年末回顾:2021年 AI 领域⼗⼤研究趋势及必读论⽂
编 | ⼩轶,Yimin_饭煲
在本⽂中,我们将梳理近百篇的最新深度学习论⽂,以总结出“2021 年⼗⼤ AI 研究趋势”。
AI 领域的论⽂可谓层出不穷。这篇⽂章或许能帮助你跟踪总体趋势和重要研究。下⽂中提及
的部分⼯作可能并不发表于 2021 年,但对于形成 2021 年的 AI 趋势也起到了重要作⽤,因
⽽也在本⽂中列出。
1. OpenAI CLIP
OpenAI今年年初发布的CLIP模型可以说是今年AI⾏业最重要的⾥程碑。 CLIP模型看起来似
乎只是是隐藏在模型"DALL·E"背后的⼀个不显眼的存在。不过在OpenAI的CLIP模型发布之
初,我就认为CLIP模型⽆论从上层应⽤还是底层模型架构来看都是⼀个⾮常重要的⼯作。正
如我所预期的那样,CLIP 的使⽤量快速增⻓。在 Kevin Zakka的博⽂[1]指出,"鉴于CLIP在
该领域的影响⼒,很遗憾它与DALL·E 同时宣布"(也即DALL·E掩盖了CLIP模型的⻛头)" "传
统的基于固定标签类别的视觉监督学习已死", 还有⼀些博⽂称“OpenAI的CLIP是今年计算机
视觉最重要的发展”。
CLIP的机制⾮常简单。使⽤可以从⽹络上⼤量获取的⼤量图像以及与之相关的⽂本来预训练
CLIP模型中相应的图像和⽂本编码器。如果⽂本和图像内容匹配,模型将给出⾼相似度,否
则将给出低相似度。
为什么CLIP模型这么有⽤? ⾸先,考虑从图⽚到⽂字的⽅向,可以通过输⼊图⽚从多个选项
中选择最匹配图⽚的⽂字对图⽚进⾏分类。传统的图像分类⼀般是在多分类框架中解决,从⼀
个固定的类中选择⼀个正确的答案,但是使⽤CLIP,图像使⽤未定义范围的⾃然语⾔⽂本进
⾏分类。通过将标签转化为⾃然语⾔⽂本,可以⽆需使⽤特定下游任务的数据对CLIP进⾏微
调就进⾏分类,因此可以实现“零样本学习”。
相反,考虑到从⽂本到图像的⽅向,如果输⼊某个⽂本,对图像进⾏优化,使其与⽂本的相似
度变⼤,就可以⽤⾃然语⾔⽣成图像。准确地说,它通过优化其潜在表示并结合使⽤⼤量图像
预训练的图像⽣成模型来⽣成图像,例如 VQGAN。VQGAN + CLIP的这种组合在今年年中
成为⽹络上的⼀⼤话题,因为它可以轻松⽣成⾼质量的图像。近来,⼀种结合扩散模型(详细
信息将在后⾯描述)和CLIP的“CLIP引导扩散模型(CLIP Guided Diffusion Models)”也成为
了热⻔话题。
除了图像分类和图像⽣成任务之外,CLIP模型作为“通⽤图像理解引擎”的各种⽤途正在扩
展。在前⾯提到的Kevin Zakka博⽂中,在视觉领域,通过实际例⼦介绍了利⽤CLIP模型解决
reCAPTCHA、⽬标检测、显著图可视化等各种任务中的应⽤。此外,在⼀篇题为“How Much
Can CLIP Benefit Vision-and-Language Tasks?” 的论⽂中,CLIP可以⽤于VQA、 Image
Captioning和视觉语⾔导航(Vision-Language Navigation)之类的任务,并且已达到与强⼤
Baseline相当或超过的性能。CLIPScore实现了⽆参考⽂本的Image Captioning⽣成性能评
估。CLIP模型也可以被⽤于基于NeRF的场景⽣成、物理AI、机器⼈技术。
最近,AudioCLIP和Wav2CLIP扩展了 CLIP 以学习⾳频、图像和⽂本三种模态之间的关系。
许多⼯作提出了CLIP模型的扩展和改进,例如 Lite和SLIP。
2. ⾃监督学习/对⽐学习
⾃监督学习是⼀种通过从数据本身创建伪监督信号来学习机器学习模型的⽅法。⽬前最流⾏的
⾃监督学习⽅法是BERT中著名的掩码语⾔模型(MLM)。MLM被⼴泛应⽤于各种预训练⽅法
之中。⾃监督学习中⼀个重要的分⽀是对⽐学习,它使⽤数据之间的“相似/不相似”关系作为训
练时的监督信号。它的简单性和强⼤的表示学习能⼒使其在过去⼏年中⼴泛应⽤于各种⼈⼯智
能任务。
对⽐学习并不是什么新鲜的概念。多年之前,在⾃然语⾔处理领域流⾏的Word2Vec和Quick
Thoughts中已经使⽤了类似的技术。
近年来在NLP领域中,ELECTRA通过检测⾃然语⾔⽂本中的替换词进⾏⾃监督学习,CLEAR
通过数据扩展和对⽐学习获得⾼质量的句⼦表示,DeCLUTR使⽤从⽂档中采样的⽂本⽚段训
练⾼质量的句⼦表示,SimCSE则是⼀种只需要两个输⼊到编码器的简单有效的句⼦表示⽅
法。
在计算机视觉领域,从⼤量标记图像(例如ImageNet)中进⾏有监督的预训练已经很普遍。然
⽽,在过去⼏年中,⾃监督学习和对⽐学习技术变得⾮常流⾏。最典型的是 SimCLR 和
SimCLRv2,它们通过将不同的数据扩展应⽤于单个图像来进⾏表示学习。此外,MoCo使⽤
动量编码器进⾏对⽐学习,BYOL通过⼀种从头开始创建隐表示的⾃监督学习⽅法及⽆标签的
知识蒸馏提升性能。还有许多其他⽅法被提出,例如DINO和SimSiam。上⾯介绍的CLIP也是
基于对⽐学习训练的。
最近,MAE和SimMIM这两种使⽤与掩码语⾔模型类似的思想进⾏计算机视觉的⾃监督学习⽅
法也成为热⻔话题。
3. 多层感知器 (MLP) 的复兴
2021 年也是多层感知器 (MLP) 蓬勃发展的⼀年。 虽然它是⼀个简单的模型,可以称为仅使
⽤线性层和激活函数的“原始神经⽹络”,但当它通过具有复杂架构的现代⽅法进⾏训练时,它
已经显示出惊⼈的强⼤性能。
在图像分类中,⽆需使⽤卷积神经⽹络 (CNN) 和 Transformer 中⼴泛使⽤的注意⼒机制,
只需将图像Patch和MLP相结合即可实现⾼性能和⾼速度的图像分类器。 2021年有⼤量基于
MLP的模型出现,包括Mixer, gMLP还有Meta AI提出的ResMLP和RepMLP。
截⽌到2021年12⽉,尽管研究者们因为"MLP或许将成为超越Transformer的模型"⽽激动不
已,但MLP还没有通过替换Transformer⽽普及。在最近发表的MLP综述论⽂"Are you ready
for a new paradigm shift?"中指出,在⽬前的训练规模上,归纳偏置(Inductive bias)仍然
有存在的必要,也即根据任务和数据设计模型结构仍然能在绝⼤多数情况下取得更好的效果。
此外,MLP还有⼀个未解决的问题,就是其性能严重依赖于输⼊分辨率。
4. 第三个深度学习库 JAX
JAX是⼀个似乎同时具备Pytorch和 Tensorflow 优势的深度学习框架。 JAX 是 Google
Research 开发的机器学习库,被称为“在 GPU/TPU上运⾏的具有⾃动微分功能的Numpy”,
该库的核⼼是类似 Numpy 的向量和矩阵运算。我个⼈认为,与Numpy 和
PyTorch/TensorFlow最⼤的不同在于JAX是“(纯)⾯向函数的”,对于⾃动微分和误差反向传
播的处理⽅式有着根本的不同。
如果你在“PyTorch vs TensorFlow in 2022”这篇博客⽂章[2]中阅读了Hacker News的评论
部分,以及标题为“2022 Are you a PyTorch sect? TensorFlow sect?”的 Reddit 帖⼦[3]中
的许多评论,诸如“⼈们开始转向JAX”、“使⽤ JAX”和“JAX 正在取代 TensorFlow”这样的评
论表明它甚⾄在社区基础上也逐渐流⾏起来。
2021 年,DeepMind 发表的许多优秀研究在其实现中使⽤ JAX 和基于 JAX 的神经⽹络库
Haiku。视觉Transformer 和 MLP-Mixer的实现中也使⽤了基于JAX的深度学习库Flax。最
近,⾕歌发布了⼀个基于JAX的计算机视觉库SCENIC,它利⽤视觉Transformer以统⼀的⽅
式解决图像、视频和⾳频任务。
在⾃然语⾔处理(NLP )领域,Flax 已经正式被⽤于NLP 的流⾏框架 HuggingFace
Transformers 和⽬前开源最强的语⾔模型GPT-J。我经常使⽤Haiku(⼀个基于JAX的神经⽹
络库),并使⽤JAX的并⾏化机制xmap进⾏模型并⾏化。今年6⽉发布的Cloud TPU VM也有
助于使 TPU 更易于使⽤。总之,我们期待着“2022年是JAX年”的未来发展。
5. 扩散模型
“扩散模型”通过逐渐向数据中添加噪声并学习相反的去噪过程来⽣成图像和语⾔。 “Beyond
GAN in image generation” 、 “Likelihood-based SOTA” 、 “Applicable to language
generation”等⾮常划时代的⽅法和论⽂陆续公布。扩散模型可以被称为是2021年最⼤趋势的
其中之⼀。
2019-2020年,扩散模型的基础研究开始活跃起来。⾸先是基于使⽤分数的“分数匹配”的⽣成
模型以及使⽤扩散概率模型的⾼质量图像⽣成⽅法. 从 Denoising Diffusion Probabilistic
Models开始,对扩散模型的在图像⽣成领域的研究开始变得活跃。
另⼀⽅⾯,与其他基于似然性的⽅法(如⾃回归模型)相⽐,扩散模型存在⽆法获得更好似然
性的问题。2021年,研究者们改进了OpenAI 的扩散模型Improved Denoising Diffusion
Probabilistic Models和 The diffusion model exceeded GAN in image generation来解决
这个问题。他们的论⽂Diffusion Models Beat GANs on Image Synthesis发表并成为⼀个
热⻔话题。此外,扩散模型也被应⽤于其他模态,包括D3PM应⽤于⽂本⽣成,DiffWave和
WaveGrad应⽤于语⾳⽣成等。
最后,最近出现了“CLIP引导的扩散模型(CLIP guided diffusion model)”,它将扩散模型应
⽤于从⽂本⽣成图像,类似于上述使⽤ VQGAN+CLIP的图像⽣成。
6. 以数据为中⼼的⼈⼯智能
早些年,有⼀种以数据为中⼼的“ 数据编程” 技术。当年基于该技术起家的创业公司
Snorkel.ai,⽬前已市场估值超过百亿,加⼊独⻆兽⾏列。
⽽今年,“以数据为中⼼的⼈⼯智能”再度成为 AI 新趋势,⼜⼤⽕了⼀把。其背后的推动⼒是
DeepLearning.ai / Landing.ai 的领导者 Andrew Ng 在今年 3 ⽉发布的名为 A Chat with
Andrew on MLOps: From Model-centric to Data-centric AI 的演讲。在研讨会上,他倡导
“以数据为中⼼的 AI”作为⼀个清晰的概念,引发学术界的⼴泛认同和讨论。Andrew 介绍了他
当时负责的⼀个项⽬。该项⽬旨在开发⼀个⽤ CV 技术检测产品缺陷的系统。经过两周的开发
期,他们发现通过改进模型并没有带来明显准确率的提升,⽽改进数据却带来了 16.9% 的性
能提升。
之后,Andrew ⼜领导 Landing.ai / DeepLearning.ai 举办了⼀场以数据为中⼼的⼈⼯智能
竞赛。与 Kaggle 等传统 AI 竞赛截然,这场⽐赛并不是下载标准数据集,然后改进模型端,
⽽是通过改进数据端以提⾼结果。今年晚些时候,还与 NeurIPS 2021 国际会议⼀起举办了
以数据为中⼼的 AI 研讨会。⼀篇论⽂[4]也谈到了“那些⾃称基准数据集的 benchmark 也充
斥着各种数据错误”。
“数据对⼈⼯智能很重要”,这⼀点或许不⽤多说。很多⼈在将 AI 应⽤于现实世界的问题时,
通过权衡“数据改进”和“模型改进”,或多或少都意识到数据改进具有很⼤的效益。但是,能在
今年推出“以数据为中⼼的⼈⼯智能”的这⼀明确概念进⾏传播,并得到学术界⼴泛认可,依然
是⼀个巨⼤的进步。
7. 语⾳⽆监督表示学习
2021 年,也是语⾳(语⾳、⾳频、⾳乐)技术取得重⼤突破的⼀年。
⾃ 2020 年以来,语⾳的⾃监督学习得到了积极的研究,并应⽤于各种任务,例如 wav2vec
2.0。与⽂本和图像⼀样,通过收集⼤量未注释的数据并进⾏预训练学习,显著提⾼了在语⾳
识别等各类语⾳任务上的性能。即使在 2021 年,⾃监督的研究势头也依然持续。SSAST 通
过 mask 语⾳块来预训练学习⾼质量的语⾳表示。近⽇,[5] 则提出了⼀种⽤于学习语⾳、环
境声⾳和⾳乐的通⽤语⾳表达的⽅法。
随着语⾳的表示学习⽅法变得越来越强⼤,今年各个语⾳任务上都有不⼩的突破。今年年中,
Facebook 的 wav2vec-U 实现了⽆标签语⾳识别,备受关注。
此外,在处理语⾳时完全不依赖⽂本的“⽆⽂本NLP”⽅法在今年也得到了快速发展。典型的例
⼦是 GSLM,它仅根据语⾳输⼊⽣成语⾔。[6] 则提出了⼀种使⽤离散潜在代码直接将语⾳转
换为语⾳的⽅法。这是⼀种⾮常具有前景的突破性技术,因为世界上有很多语⾔并没有书⾯形
式。
这些⽤于语⾳的⽆监督表达学习⽅法⼤部分已经被 Facebook / Meta AI 开源了。这两家公司
也是当前语⾔技术实⼒最强的机构之⼀。
8. 语⾔模型继续做⼤做深
震惊业界的 GPT-3 在 2020 年公布已经有⼀段时间了,但巨型语⾔模型的研发在那之后依然
在持续推进。在 2021 年,GPT-3 已然不是“最新⼤规模语⾔模型”,⽽是各种更新模型的改进
“基线”。
⽐如今年早些时候,EleutherAI 发布了号称“⽬前开源可⽤的最强语⾔模型” GPT-J-6B(60
亿个参数)。GPT-J-6B 采⽤ JAX / Haiku 实的。AI21 Labs(以⾊列的⾃然语⾔处理初创
公司)也发布了巨型语⾔模型 Jurassic-1。虽然它与 GPT-3 规模⼏乎相同(参数数量
178B),但它已加⼊了各种 trick 以提⾼性能。此外,12 ⽉ DeepMind 发布了最新的 280B
参数的⼤规模语⾔模型 Gopher,证明其在各种⾃然语⾔理解任务中的表现优于 GPT-3。
在当今的语⾔模型研究中,不仅要加⼤规模,更注重加⼊巧思,研究如何⽤好⼤规模语⾔模型
去解决⽬标任务。⽐如,FLAN 模型⽤ prompt 调优⼤规模语⾔模型,以提⾼模型在 zero-
shot 场景下的泛化能⼒。其他旨在提⾼零样本泛化能⼒的代表⼯作包括 T0 和 ExT5。这两篇
⼯作都结合了预训练学习和⼤规模多任务学习。
需要注意的是,其中语⾔模型是基于 seq2seq 结构(如 T5),⽽不是仅仅有解码器(如
GPT-3)。2021 年,T5、mT5 和可以直接处理字节序列的 ByT5 还发布了多语⾔的版本。
这些模型的使⽤范围也正在不断扩⼤。
9. ⾮参数⽅法
很⻓时间依赖,⼤规模语⾔模型将知识以模型参数的形式进⾏存储。虽然这些“参数化”模型可
以拥有惊⼈的⼤量知识作为参数。它们在 QA 等需要⼤量知识的任务中表现良好。缺点则是模
型的⼤⼩必须成倍增加才能改进。
从2020年左右开始,越来越多的研究开始将知识作为某种外部知识,⽽不是作为模型参数来
表达,称为“⾮参数”⽅法。这些模型也被称为“基于搜索”的技术,因为它们需要通过搜索得到
外部知识。
典型的⽅法包括基于邻域搜索的语⾔模型(kNN-LM),基于邻域搜索的机器翻译(kNN-
MT),以及使⽤搜索的语⾔⽣成。如 RAG ([7],⻅上图)和 MARGE([8],2020 年)使
⽤搜索 + 释义进⾏预训练学习。
近⽇,⼤型语⾔模型 RETRO [9]发布。该模型通过搜索技术改进语⾔模型,基于⼀个 2 万亿
token 组成的数据库进⾏搜索,达到了近乎 GPT-3 的性能。这些模型的优点是在不增加参数
数量的情况下提⾼了语⾔模型的性能,并且可以在之后不断添加或替换搜索数据库。
10. “AI ⼤⼀统理论”
最后,让我们谈谈近年来⼈⼯智能最重要的趋势——“AI ⼤统⼀理论”。2021年,⼈⼯智能领
域在各种“⼤整合”。近⽇,特斯拉 AI 负责⼈ Andrew Karpathy 发布了⼀条推⽂称“AI 空间的
持续整合令⼈惊叹”, 很好地代表了 AI ⾏业的当前状态:
Andrew Karpathy 的 Twitter 全⽂:
当我进⼊ AI ⾏业时,计算机视觉、语⾳、⾃然语⾔、强化学习等各个领域是完全分开
的。那时候很难跨领域地阅读论⽂。因为⽅法完全不同,有的⽅法通常甚⾄不是基于机器
学习的。
在 2010 年代,所有这些领域都开始转变,特别是机器学习和神经⽹络⽅⾯。模型架构或
许多种多样,但论⽂都开始变得越来越相似,所有领域都在⽤⼤型数据集,并关注如何优
化神经⽹络。
⽽从⼤约两年前开始,各个领域连神经⽹络架构都开始变得雷同起来—— ⼀个
Transformer ⾜矣(⽤ pytorch 版本的话,⼤约 200 ⾏)。Transformer 作为⼀个强⼤
的 baseline,你可以给它输⼊单词序列,或者或图像 patch 序列,或演讲语⾳序列。或
者强化学习中的(state, action, reward)序列。任意其他标记统统都可以放⼊这个简单
⼜灵活的模型框架。
在领域内部,⽐如 CV 领域,过去在分类、分割、检测、⽣成⽅⾯也存在⼀些差异,但所
有这些也正在转换为相同的框架。现在⽅法上的区别都主要集中在:
数据
如何将你要解决的任务更好地映射到向量序列,以及如何从向量序列抽取输⼊/输出规
范
位置编码器的类型和任务定制化的注意⼒机制
因此,即使我是做 CV 的,也不得不开始关注其他领域,因为所有领域 AI 的论⽂和想法
都已变得息息相关。每个⼈都在使⽤基本相同的模型,因此⼤多数改进和想法都可以快速
在所有 AI 中快速“复制粘贴”。
正如已经有不少⼈指出的那样,⼤脑的新⽪质在其所有输⼊模式中也具有⾼度统⼀的架
构。也许⼤⾃然偶然发现了⼀个⾮常相似的强⼤架构,并以类似的⽅式复制了它,只是改
变了⼀些细节。AI 架构上的这种整合,使我们将更多注意⼒放在了提升软件、硬件和其
他基础设施上,从⽽进⼀步加速了⼈⼯智能的进步。Anyway,这是个激动⼈⼼的时代。
即使基于 CNN 的各种强⼤模型已经⼴泛应⽤于 CV 领域多年。近年来,图像也开始被分割成
patch 喂进了 Transformer。从 Vision Transformers 和 DeiT 开始,Transformer 的浪潮
愈加汹涌。类似的想法开始通过 SST 传播到语⾳领域。SST 将频谱图也拆分为 patch 来分
析语⾳。
在⾃然语⾔处理领域,我们如何像 GPT ⼀样使⽤ Transformer 来⽣成和转换新的图像和声
⾳?答案很简单:“将图像和声⾳等输⼊转换为离散标记,并使⽤语⾔等转换器对标记序列进
⾏建模。” 这个框架没有具体的名称,但个⼈认为会是近两年左右深度学习⾏业最重要的趋
势。
对于这种到离散标记序列的转换,通常使⽤ VQ-VAE,⼀种将潜在表达式绑定到离散标记的⾃
解码器 (autoencoder),或者 dVAE (也被称为离散变分⾃编码器)。这种机制⼴泛应⽤于
图像⽣成模型,如 VQGAN 、 DALL·E 、 CogView 、 NÜWA, 以及视频⽣成模型
VideoGPT。在⾳乐领域,Jukebox 它结合了离散化和 transformer 直接从⾳频⽣成⾳乐。
对输⼊进⾏离散标记化,通过屏蔽⼀部分并从上下⽂中恢复它可以更容易地学习⾼质量的表达
式。例如⾃然语⾔处理领域流⾏的 BERT 掩码语⾔模型。使⽤这种机制,已经提出了⽤于视
觉变换器的类 BERT 预训练模型 BEIT,以及⽤于视频的类 BERT 模型 VIMPAC。
最后,Transformer 的浪潮不仅仅涉及语⾔、图像和⾳频等领域。TabTransformer和 NPT
使⽤了表格数据的⾃注意⼒机制。另外还有推荐系统领域的 Transformer4Rec,以及强化学
习领域的 Decision Transformer。
⽬前,如果是⼀个可以序列化的任务,并且可以获得⾜够的(初步的)学习数据,
Transformers for Everything 的趋势很可能会继续很⻓⼀段时间。Transformer 的霸权还要
持续多久,我们拭⽬以待。
后台回复关键词【⼊群】
加⼊卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各⼤顶会论⽂集!
[1] https://blog.kzakka.com/posts/clip/
[2] https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2022/
[3]
https://www.reddit.com/r/MachineLearning/comments/rga91a/d_are_you_using_pytorch_or_tensorflow_go
ing_into/
[4] https://arxiv.org/abs/2103.14749
[5] https://arxiv.org/abs/2111.12124
[6] https://arxiv.org/abs/2107.05604
[7] https://arxiv.org/abs/2005.11401
[8] https://arxiv.org/abs/2006.15020
[9] https://arxiv.org/abs/2112.04426
论⽂回顾:U2-Net,由U-Net组成的U-Net
数据派THU
最终篇!AAAI 2022值得读的NLP论⽂盘点
PaperWeekly
引⽤次数在15000次以上的都是什么神仙论⽂?
深度学习算法与计算机视觉
微信扫⼀扫
关注该公众号
2021-12-31 17:00夕⼩瑶的卖萌屋