【免费】【多模态大模型综述】【中文精细翻译】MultimodalFoundationModels

microsoft

自然语言处理

需积分: 0 26 浏览量 2023-09-25 15:57:59 上传评论 8 收藏 55.51MB PDF 举报

资源推荐

资源详情

资源评论

Multimodal Foundation Models:

From Specialists to General-Purpose Assistants

Chunyuan Li

∗♠

, Zhe Gan

∗

, Zhengyuan Yang

∗

, Jianwei Yang

∗

, Linjie Li

∗

Lijuan Wang, Jianfeng Gao

Microsoft Corporation

{chunyl,zhgan,zhengyang,jianwyan,linjli,lijuanw,jfgao}@microsoft.com

∗

Core Contribution

♠

Project Lead

Abstract

*警告：该PDF由GPT-Academic开源项目调用大语言模型+Latex翻译插件一键生成，版权归原文作者

所有。翻译内容可靠性无保障，请仔细鉴别并以原文为准。项目Github地址 https://github.com/

binary-husky/gpt_academic/。当前大语言模型: gpt-3.5-turbo，当前语言模型温度设定: 1。为了防止大

语言模型的意外谬误产生扩散影响，禁止移除或修改此警告。

本文对展示视觉和视觉语言能力的多模式基础模型的分类和演进进行了全

面的调查，重点关注从专业模型向通用助手的转变。研究领域包括五个核

心主题，分为两类。(i)我们从对已经成熟的研究领域进行调查开始: 针对特

定目的而预训练的多模式基础模型，包括两个主题–学习视觉主干以进行视

觉理解和文本到图像生成的方法。(ii)然后，我们介绍了探索性的、开放式

的最新研究领域的进展: 旨在扮演通用助手角色的多模式基础模型，包括三

个主题–受大型语言模型（LLMs）启发的统一视觉模型、多模式LLMs的端

到端训练以及与LLMs链接的多模式工具。本文的目标受众是计算机视觉和

视觉语言多模式社区的研究人员、研究生和专业人士，他们渴望了解多模

式基础模型的基础知识和最新进展。

Chunyuan Li发起了该项目，并主导了第1、 4和4.9.6章的撰写。 Zhe Gan、 Zhengyuan Yang、

Jianwei Yang和Linjie Li分别主导了第2、2.6.3、3和4.5章的撰写。Lijuan Wang和Jianfeng Gao对整篇论

文提供了全面的建议和编辑。所有作者都提供了项目建议，并参与了论文的审核、编辑和校对。

Zhe Gan目前就职于Apple AI/ML。

2.10 Text-based Editing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.11 文本指令编辑 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.12 Text Prompts Following . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.13 总结与趋势 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.14 Concept Customization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.15 Trends: Uniﬁed Tuning for Human Alignments . . . . . . . . . . . . . . . . . . . 39

3 统一的视觉模型 42

3.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2 From Closed-Set to Open-Set Models . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2.1 Object Detection and Grounding . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.2 Image Segmentation and Referring . . . . . . . . . . . . . . . . . . . . . 48

3.3 From Task-Speciﬁc Models to Generic Models . . . . . . . . . . . . . . . . . . . 50

3.3.1 I/O Uniﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.3.2 Functionality Uniﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4 From Static to Promptable Models . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4.1 Multi-modal Prompting . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4.2 In-context Prompting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.5 Summary and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 大型多模型:

采用LLM进行训练 63

4.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.1.1 Image-to-Text Generative Models . . . . . . . . . . . . . . . . . . . . . . 63

4.1.2 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.1.3 OpenAI Multimodal GPT-4 and Research Gaps . . . . . . . . . . . . . . . 65

4.2 Pre-requisite: Instruction Tuning in Large Language Models . . . . . . . . . . . . 66

4.2.1 Instruction Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.2.2 Self-Instruct and Open-Source LLMs . . . . . . . . . . . . . . . . . . . . 68

4.3 Instruction-Tuned Large Multimodal Models . . . . . . . . . . . . . . . . . . . . 70

4.4 Advanced Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.5 How Close We Are To OpenAI Multimodal GPT-4? . . . . . . . . . . . . . . . . . 76

4.6 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.7 Multimodal Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Chapter 1

Introduction

视觉是人类和许多生物感知和与世界互动的主要渠道之一。人工智能（AI）的核心愿景之

一是开发能够模仿这种有效感知并生成视觉信号的AI代理，从而在视觉世界中进行推理和

互动。例如，识别场景中的物体和动作，以及创建草图和图片进行交流。构建具备视觉能

力的基础模型是一个正在追求此目标的研究领域。

在过去的十年中，AI领域在模型的发展方面经历了丰硕的轨迹。我们将它们分为四类，如

图1.1所示。这种分类可以在AI的不同领域中共享，包括语言、视觉和多模态。我们首先使

用NLP中的语言模型来说明演变过程。(i) 在早期，为个别数据集和任务开发了特定任务的

模型，通常是从头训练的。 (ii) 通过大规模预训练，语言模型在许多已建立的语言理解和

生成任务上达到了最先进的性能，如BERT (Devlin et al., 2019)，RoBERTa (Liu et al., 2019)，

T5 (Raffel et al., 2020)，DeBERTa (He et al., 2021)和GPT-2 (Radford et al., 2019)）。这些预训练

模型为下游任务的适应提供了基础。 (iii) 以GPT-3 (Brown et al., 2020)为例，大型语言模型

（LLMs）将各种语言理解和生成任务统一到一个模型中。通过大规模训练和统一，出现了

一些新兴的能力，例如上下文学习和思维链。 (iv) 随着人工智能对齐的最新进展，LLMs开

始扮演起跟随人类意图完成各种语言任务的通用助手的角色，在野外显示出了有趣的能力，

如ChatGPT (OpenAI, 2022)和GPT-4 (OpenAI, 2023a)。这些助手展示了交互和工具使用等有

趣的能力，并为开发通用AI代理奠定了基础。有必要指出，最新的基础模型的迭代在保留

早期版本的显著特征的同时，还提供了额外的能力。

受LLMs在NLP领域的巨大成功启发，计算机视觉和视觉语言社区的研究人员自然会问一

个问题：ChatGPT/GPT-4在视觉、视觉语言和多模态模型领域的对应物是什么？毫无疑问，

自BERT诞生以来，视觉预训练和视觉语言预训练（VLP）引起了越来越多的关注，并成为

视觉领域的主流学习范式，有望学习到通用可转移的视觉和视觉语言表示，或生成高度逼

真的图片。可以说，它们可以被视为多模态基础模型的早期代表，就像BERT/GPT-2对于语

言领域一样。虽然建立用于语言的ChatGPT等通用助手的路线图已经清晰，但对于计算机视

觉的对应物——通用视觉助手的研究社区越来越重要地需要探索可行的解决方案。总的来

说，构建通用代理一直是AI的长期目标。具有新出现特性的LLMs大大降低了构建此类语言

任务代理的成本。相似地，我们预见到视觉模型的新兴能力，例如按照各种视觉提示（如用

户上传的图片、人类绘制的点击、草图和掩码）撰写的指示进行操作。这种强大的零样本视

觉任务组合能力可以显著降低构建AI代理的成本。

在本文中，我们将多模态基础模型的范围限定为视觉和视觉语言领域。关于相关主题的最

近调查性论文包括：(i) 自监督学习等图像理解模型 (Jaiswal et al., 2020; Jing and Tian, 2020;

剩余126页未读，继续阅读

评论收藏

内容反馈

Java要加糖吗

粉丝: 1
资源: 1

【多模态大模型综述】【中文精细翻译】Multimodal Foundation Models

最新资源

【多模态大模型综述】【中文精细翻译】Multimodal Foundation Models

多模态深度学习综述.pdf

多模态机器学习综述.zip

多模态大语言模型综述来啦！一文带你理清多模态关键技术

多模态大语言模型综述来啦！一文带你理清多模态关键技术.pdf

2019-多模态学习方法综述1

高质量中文预训练模型;大模型;多模态模型;大语言模型集合.zip

多模态深度学习综述 (1).pdf

微软发布多模态大模型最全综述！.pdf

基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型

多模态相关综述论文PPT分享

1-3+中文大规模多模态预训练模型M6.pdf

多模态深度学习综述（18页pdf）.pdf

多模态情绪识别研究综述.pdf

大语言模型-紫东太初多模态大模型

本项目旨在汇总那些ChatGPT的开源平替们，包括文本大模型、多模态大模型等，为大家提供一些便利.zip

3-1+超大规模多模态预训练模型M6.pdf

ChatGPT给语言大模型和多模态大模型新的发展思路

2020-多模态情绪识别研究综述1

中科院发布多模态 ChatGPT，图片、语言、视频都可以 Chat ？中文多模态大模型力作

中科院发布多模态 ChatGPT，图片、语言、视频都可以 Chat ？中文多模态大模型力作.pdf

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

行人跌倒数据集（VOC格式）

YOLOV5 + 双目相机实现三维测距（新版本）

全新的SOTA模型YOLOv9

最新资源