大幅超越DALL·E2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

63 浏览量 2023-10-18 18:01:40 上传评论收藏 2.84MB RAR 举报

RA-CM3模型是斯坦福大学最近发布的一款先进的人工智能图像生成系统，它在性能上显著超越了此前备受瞩目的DALL·E 2和Imagen模型。这一突破性进展标志着AI生成内容（AIGC）领域的一个重要里程碑，尤其在自然语言处理（NLP）和机器学习算法的应用上。 DALL·E 2是由OpenAI开发的，它能够根据文本描述创建逼真的图像，展示了强大的跨模态理解能力。而Imagen则是谷歌的研究成果，同样能够将文字转化为高质量的图像，但在某些方面可能稍逊于DALL·E 2。然而，RA-CM3模型通过结合检索和生成两种机制，实现了对图像生成任务的新水平。在传统的生成式模型中，如DALL·E 2和Imagen，通常基于纯生成方法，即模型从头开始创造图像，不参考任何现有的图像数据。这种方式虽然可以产生新颖的图像，但可能会缺乏现实感或准确性。相反，RA-CM3采用了检索增强的策略，它能够在生成过程中结合大量的图像数据库，查找与输入文本描述相符的视觉元素，然后进行混合和编辑，从而生成更接近现实、更丰富的图像。 RA-CM3模型的核心是其复杂的神经网络架构，该架构能够处理大量的图像和文本数据，学习到更为细致的语义对应关系。这种架构可能包括Transformer组件，用于处理序列数据，并通过自注意力机制捕捉上下文信息；以及卷积神经网络（CNN），用于处理视觉特征。通过这两个模块的协同工作，RA-CM3能够有效地将文本描述转化为视觉表示。此外，RA-CM3的检索功能使其在处理多样性和复杂性上具有优势。它可以生成不同风格、场景和主题的图像，甚至可以捕捉到特定物体的细节，如颜色、形状和纹理。这使得RA-CM3在创意设计、视觉艺术、甚至科学研究中具有广泛的应用潜力，例如，为文学作品生成插图，或者辅助科学家理解复杂实验结果。在机器学习领域，RA-CM3的成功表明了混合模型和跨模态学习的重要性。未来的研究可能会进一步探索如何优化这类模型，提高它们的效率，减少计算资源的需求，同时保持或提高生成质量。这可能涉及到模型压缩、迁移学习、元学习等技术，以实现更高效的学习和泛化能力。 RA-CM3模型的发布不仅展示了人工智能在图像生成上的新高度，而且为NLP和机器学习领域的研究提供了新的方向。随着技术的不断进步，我们可以期待更多创新的AI工具，将人类的想象力与计算机的计算能力紧密结合起来，创造出前所未有的艺术和实用价值。

资源推荐

资源详情

资源评论

收起资源包目录

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.rar （1个子文件）

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.pdf 2.98MB

2023/6/28 16:46

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成

https://mp.weixin.qq.com/s/oKWpRk9Gvmvtp7BjAShdCw

1/9

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索

与生成

文｜ QvQ

最近，DALL-E和CM3等模型在多模态任务尤其是图文理解上表现出色。然而，这些模型似乎

需要将所有学到的知识存储都存储在模型参数中，这就不得不需要越来越大的模型和训练数据

来获取更多的知识，俨然将bigger andbett er绑定在了一起。

那既然如此，哪还需要算法工程师？全体转行数据标注工程师和芯片制造工程师岂不是可以早

日实现AI自由？

这不，斯坦福和Meta AI一众学者为了证明算法工程师“不可取代”的地位，提出了一种检索增

强的多模态模型：实现了通过可缩放和模块化的方式集成知识，从而使基础多模态模型

QvQ 2022-12-12 11:39 发表于北京

原创

夕小瑶科技说

2023/6/28 16:46

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成

https://mp.weixin.qq.com/s/oKWpRk9Gvmvtp7BjAShdCw

2/9

（生成器）能够引用检索器从外部存储器 (如 Web上的多模态文档 )获取的相关知识，大幅

度增强模型性能。smaller also better跃然纸上。

论文题目：

Retrieval-Augmented Multimodal Language Modeling

论文链接 :

https://arxiv.org/pdf/2211.12561.pdf

1.前言

1.1 整体架构

本文提出了一种检索增强多模态模型，那么啥是检索增强多模态模型？顾名思义，一个复杂

的名词往往可以拆分来解析：检索增强与多模态。

检索增强的操作之前往往应用在语言模型上即检索增强语言模型：框架由检索模块和生

成器模块（例如，语言模型）组成。检索模块获取输入序列和文档的外部存储器，

并返回文档的候选检索列表。然后，生成器获取输入序列x和检索到的文档

（，，）

，并返回语言建模任务中的目标。

多模态模型：可以处理如文本、图像、语音等多种形态信息的模型。

终上所述，将以上两者进行缝合，本文提出的检索增强多模态模型是一种可以检索和生成文本

和图像的新方法。

整体架构如下图：

(a):对于给定输入的多模态文档，使用检索器从外部存储器检索相关的多模态文件，并让生成

器参考检索到的文档对输入进行预测多模态预测。

(b):多模态检索器是具有混合模态编码器的密集型检索器，其中编码器可以对文本和图像的进

行混合编码（如使用CLIP预训练模型对文本和图像分别编码）。

2023/6/28 16:46

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成

https://mp.weixin.qq.com/s/oKWpRk9Gvmvtp7BjAShdCw

3/9

(c):检索增强生成器的构建是基于CM3 Transformer架构，最终将检索到的多模态候选文档与

原始输入一同作为输入以生成图像、文本作为最终目标。

作者表示这是第一个可以检索和生成混合文本图像的多模态模型，也是现有多模态模型中功能

最全的模型。

1.2 CM3模型

因果式 masked多模态模型 :CM3是用于多模态文档的Transformer解码器模型。多模态文档定

义为文本、图像或一系列富媒体的组合。 CM3将每个多模态文档格式化为HTML序列，例如

<img alt=[text] src=[image]>，其中[text]是文本标记序列，[image]是图像标记器获得的图

像标记序列。

在训练时， CM3要么将原始序列作为输入（例如， =猫的照片： [image]），要么通过

mask一些token并将其移动到末尾转换为预测目标（例如， =的照片：[image]猫）,然后

优化输入的token prediction loss:

（）

。

2.细节

2.1 检索流程

同传统检索方式一样：检索器获取查询q（即输入序列）并从存储器中或许候选文档列

表，并计算相关性得分r(q， m)。这里作者团队选择了双塔结构的编码网络：

，

其中，查询编码器和文档编码器分别为query和doc生成密集型检索向量。

给定一个多模式文档，将其分为文本部分和图像部分，使用现有的CLIP文本编码器和图像编码

器分别对这两个部分进行编码，然后将二者的输出做mean pooling，将L2范数缩放为1，作为

文档的向量表示。和都采用使用相同的编码方法。

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 2w+
资源: 635

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.rar

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.pdf

DALL-E：用于DALL·E的离散VAE的PyTorch软件包

DALLE-mtf:Open-AI的DALL-E用于网格张量流中的大规模训练

DALL-E

这个应用程序是一个带有DALL.E的ChatGPT克隆，使用OpenAIsgpt-3.5-turbo和图像生成模型.zip

PyPI 官网下载 | dalle_pytorch-0.0.45-py3-none-any.whl

DALL-E-基于Pytorch实现的DALL-E文本生成图像算法-附项目源码+流程教程-优质项目实战.zip

北京智源人工智能研究院-大模型开源体系与智力运营-2023.09-27页.pdf

PyPI 官网下载 | dalle-pytorch-0.0.27.tar.gz

chests-专用-杂图（392）.zip

Python库 | dalle_pytorch-1.1.4-py3-none-any.whl

全新DALL-E 3 必须掌握的 20种提示词.pdf

AI提示指令-基于DALL-E 2的图片生成指令语句.txt

2023生成式人工智能发展与监管白皮书-中国AI治理的独立思考-南财智库(1).pdf

通用人工智能的火花：GPT-4早期实验[中文].pdf

AI绘画软件（Stable Diffusion、Midjourney、DALL-E 2）部署与开发指南

吊打BERT、GPT、DALL·E，跨模态榜单新霸主诞生！.rar

Paddle-DALL-E:OpenAI的DALL-E的PaddlePaddle版本实现

2022北京智源大会观点报告-人工智能领域最新研究趋势.pdf

2023.01-AIGC发展趋势报告2023：迎接人工智能的下一个时代-腾讯研究院-68页.pdf

Christopher-Dall_Arm-Timers-and-Fire.pdf

【AI论文和代码2021年】Zero-Shot_Text-to-Image Generation from OpenAI

大佬在线复盘：我在训练 DALL·E 时犯过的错.rar

ChatGPT4.0知识问答、DALL-E生成AI图片、Code Copilot辅助编程，打开新世界的大门.txt

AI绘画新纪元：Stable Diffusion、Midjourney与DALL-E 2的深度解析与实战指南.pdf

《AI大模型应用》--基于OPENAI辅助UE开发，接入openai-api，使用DALL.E自动生成模型.zip

创意无限！GPT-3和DALL-E带来的AI作画革命

vs2017downloads.zip

07 9-7 其他图形模型：DALL-E、Stable Diffusion等图像生成模型介绍.mp4

大规模生成式 AI 模型 缺乏视觉数感.pdf

最新资源

大规模生成式 AI 模型缺乏视觉数感.pdf