AI 领域十大研究趋势及必读论文
在2021年,AI 领域出现了许多重要的研究趋势和论文。本文将对这些趋势和论文进行总结和分析。
1. OpenAI CLIP
OpenAI今年年初发布的CLIP模型可以说是今年AI行业最重要的里程碑。CLIP模型看起来似乎只是隐藏在模型"DALL·E"背后的一个不显眼的存在。不过,在OpenAI的CLIP模型发布之初,我就认为CLIP模型无论从上层应用还是底层模型架构来看都是一个非常重要的作品。正如我所预期的那样,CLIP的使用量快速增加。
CLIP的机制非常简单。使用可以从网上大量获取的图片以及与之相关的文本来预训练CLIP模型中的相应的图像和文本编码器。如果文本和图像内容匹配,模型将给出高相似度,否则将给出低相似度。
CLIP模型这么有用?考虑从图像到文本的方向,可以通过输入图像从多个选项中选择最匹配图像的文本对图像进行分类。传统的图像分类一般是在多分类框架中解决,从一个固定的类中选择一个正确的答案,但是使用CLIP,图像使用未定义范围的自然语言文本进行分类。通过将标签转化为自然语言文本,可以无需使用特定下游任务的数据对CLIP进行微调就进行分类,因此可以实现“零样本学习”。
相反,考虑到从文本到图像的方向,如果输入某个文本,对图像进行优化,使其与文本的相似度变大,就可以用自然语言生成图像。准确地说,它通过优化其潜在表示并结合使用大量图像预训练的图像生成模型来生成图像,例如VQGAN。VQGAN + CLIP的这种组合在今年年中成为网上的一大话题,因为它可以轻松生成高质量的图像。
近来,一种结合扩散模型(详细信息将在后面描述)和CLIP的“CLIP引导扩散模型(CLIP Guided Diffusion Models)”也成了热门话题。除了图像分类和图像生成任务之外,CLIP模型作为“通用图像理解引擎”的各种用途正在扩展。
2. 自监督学习/对比学习
自监督学习是一种通过从数据本身创建伪监督信号来学习机器学习模型的方法。目前最流行的自监督学习方法是BERT中著名的掩码语言模型(MLM)。MLM被广泛应用于各种预训练方法之中。
自监督学习中一个重要的分支是对比学习,它使数据之间的“相似/不相似”关系作为训练时的监督信号。它的简单性和强大的表示学习能力使其在过去几年中广泛应用于各种人工智能任务。
对比学习并不是什么新鲜的概念。多年之前,在自然语言处理领域流行的Word2Vec和QuickThoughts中已经使用了类似的技术。近年来在NLP领域中,ELECTRA通过检测自然语言文本中的替换词进行自监督学习,CLEAR通过数据扩展和对比学习获得高质量的句子表示,DeCLUTR使用从文档中采样的文本片段训练高质量的句子表示,SimCSE则是一种只需要两个输入到编码器的简单有效的句子表示方法。在计算机视觉领域,从大量标记图像(例如ImageNet)中进行有监督的预训练已经很普遍。然而,在过去几年中,自监督学习和对比学习技术变得非常流行。最典型的是SimCLR和SimCLRv2,它们通过将不同的数据扩展应用于单个图像来进行表示学习。此外,MoCo使用动量编码器进行对比学习。
2021年AI领域的十大研究趋势和论文中,CLIP模型和自监督学习/对比学习是两个非常重要的研究方向。CLIP模型可以实现图像分类、图像生成和图像理解等多种任务,而自监督学习/对比学习可以实现高质量的表示学习和各种人工智能任务。