没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
127页
【多模态大模型综述】 使用 gpt3.5 精细翻译,完美融合图片等内容 由微软7位华人研究员撰写,足足119页 它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题: - 视觉理解 - 视觉生成 - 统一视觉模型 - LLM加持的多模态大模型 - 多模态 agent 本报告一共7位作者。 发起人和整体负责人为 Chunyuan Li。 他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为 CV 和 NLP 中的大规模预训练。 他负责了开头介绍和结尾总结以及“利用 LLM 训练的多模态大模型”这章的撰写。 核心作者一共 4位: Zhe Gan Zhengyuan Yang Jianwei Yang Linjie Li 他们分别负责了剩下四个主题章节的撰写。
资源推荐
资源详情
资源评论
Multimodal Foundation Models:
From Specialists to General-Purpose Assistants
Chunyuan Li
∗♠
, Zhe Gan
∗
, Zhengyuan Yang
∗
, Jianwei Yang
∗
, Linjie Li
∗
,
Lijuan Wang, Jianfeng Gao
Microsoft Corporation
{chunyl,zhgan,zhengyang,jianwyan,linjli,lijuanw,jfgao}@microsoft.com
∗
Core Contribution
♠
Project Lead
1
Abstract
*警告: 该PDF由GPT-Academic开源项目调用大语言模型+Latex翻译插件一键生成, 版权归原文作者
所有。 翻译内容 可靠性无 保障, 请仔细鉴 别并以原 文为准。 项目Github地址 https://github.com/
binary-husky/gpt_academic/。当前大语言模型: gpt-3.5-turbo,当前语言模型温度设定: 1。为了防止大
语言模型的意外谬误产生扩散影响,禁止移除或修改此警告。
本文对展示视觉和视觉 语言能力的多模式基础模型的分类和演进进行 了全
面的调查,重点关注从专业模 型向通用助手的转变。研究领域包括五个核
心主题,分为两类。(i)我们从对已经成熟的研究领域进行调查开始: 针对特
定目的而预训练的多模式基础模型,包括两个主题–学习视觉主干以进行视
觉理解和文本到图像生成的方法。(ii)然后,我们介绍了探索性的、开放式
的最新研究领域的进展: 旨在扮演通用助手角色的多模式基础模型,包括三
个主题–受大型语言模型(LLMs) 启发的统一视觉模型、多模式LLMs的端
到端训练以及与LLMs链接的多模式工具。本文的目标受众是计算机视觉和
视觉语言多模式社区的研究人员、研究生和专业人士,他们渴望了解多模
式基础模型的基础知识和最新进展。
1
Chunyuan Li发起了该项目, 并主导了第1、 4和4.9.6章的撰写。 Zhe Gan、 Zhengyuan Yang、
Jianwei Yang和Linjie Li分别主导了第2、2.6.3、3和4.5章的撰写。Lijuan Wang和Jianfeng Gao对整篇论
文提供了全面的建议和编辑。所有作者都提供了项目建议,并参与了论文的审核、编辑和校对。
2
Zhe Gan目前就职于Apple AI/ML。
目录
1 Introduction 5
1.1 What are Multimodal Foundation Models? . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Definition and Transition from Specialists to General-Purpose Assistants . . . . . . 9
1.3 Who Should Read this Paper? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Related Materials: Slide Decks and Pre-recorded Talks . . . . . . . . . . . . . . . 11
2 Visual Understanding 12
2.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Supervised Pre-training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Contrastive Language-Image Pre-training . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Basics of CLIP Training . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 CLIP Variants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Image-Only Self-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.1 Contrastive and Non-contrastive Learning . . . . . . . . . . . . . . . . . . 18
2.4.2 Masked Image Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Synergy Among Different Learning Approaches . . . . . . . . . . . . . . . . . . . 22
2.6 Multimodal Fusion, Region-Level and Pixel-Level Pre-training . . . . . . . . . . . 24
2.6.1 From Multimodal Fusion to Multimodal LLM . . . . . . . . . . . . . . . . 24
2.6.2 Region-Level Pre-training . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.3 Pixel-Level Pre-training . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7.1 Human Alignments in Visual Generation . . . . . . . . . . . . . . . . . . 27
2.7.2 Text-to-Image Generation . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Spatial Controllable Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.9 T2I基于密集条件的生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2
2.10 Text-based Editing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.11 文本指令编辑 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.12 Text Prompts Following . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.13 总结与趋势 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.14 Concept Customization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.15 Trends: Unified Tuning for Human Alignments . . . . . . . . . . . . . . . . . . . 39
3 统一的视觉模型 42
3.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 From Closed-Set to Open-Set Models . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.1 Object Detection and Grounding . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.2 Image Segmentation and Referring . . . . . . . . . . . . . . . . . . . . . 48
3.3 From Task-Specific Models to Generic Models . . . . . . . . . . . . . . . . . . . 50
3.3.1 I/O Unification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.2 Functionality Unification . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 From Static to Promptable Models . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.1 Multi-modal Prompting . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2 In-context Prompting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Summary and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 大型多模型:
采用LLM进行训练 63
4.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.1 Image-to-Text Generative Models . . . . . . . . . . . . . . . . . . . . . . 63
4.1.2 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.3 OpenAI Multimodal GPT-4 and Research Gaps . . . . . . . . . . . . . . . 65
4.2 Pre-requisite: Instruction Tuning in Large Language Models . . . . . . . . . . . . 66
4.2.1 Instruction Tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2 Self-Instruct and Open-Source LLMs . . . . . . . . . . . . . . . . . . . . 68
4.3 Instruction-Tuned Large Multimodal Models . . . . . . . . . . . . . . . . . . . . 70
4.4 Advanced Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 How Close We Are To OpenAI Multimodal GPT-4? . . . . . . . . . . . . . . . . . 76
4.6 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.7 Multimodal Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3
4.8 Case Study: MM-REACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.8.1 System Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.8.2 Capabilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.8.3 Extensibility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.9 Advanced Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.9.1 Comparison to Training with LLM in Chapter 4 . . . . . . . . . . . . . . . 83
4.9.2 Improving Multimodal Agents . . . . . . . . . . . . . . . . . . . . . . . . 85
4.9.3 Diverse Applications of Multimodal Agents . . . . . . . . . . . . . . . . . 86
4.9.4 Evaluation of Multimodal Agents . . . . . . . . . . . . . . . . . . . . . . 87
4.9.5 Tool Creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.9.6 Retrieval-Augmented Multimodal Agents . . . . . . . . . . . . . . . . . . 88
4.10 Summary and Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.11 Towards Building General-Purpose AI Agents . . . . . . . . . . . . . . . . . . . . 89
4
Chapter 1
Introduction
视觉是人类和许多生物感知和与世界互动的主要渠道之一。人工智能(AI)的核心愿景之
一是开发能够模仿这种有效感知并生成视 觉信号的AI代理,从而在视觉世界中进行推理和
互动。例如,识别场景中的物体和动作,以及创建草图和图片进行交流。构建具备视觉能
力的基础模型是一个正在追求此目标的研究领域。
在过去的十年中,AI领域在模型的发展方面经历了丰硕的轨迹。我们将它们分为四类,如
图1.1所示。这种分类可以在AI的不同领域中共享,包括语言、视觉和多模态。我们首先使
用NLP中的语言模型来说明演变过程。(i) 在早期,为个别数据集和任务开发了特定任务的
模型,通常是从头训练的。 (ii) 通过大规模预训练,语言模型在许多已建立的语言理解和
生成任务上达到了最先进的性能,如BERT (Devlin et al., 2019),RoBERTa (Liu et al., 2019),
T5 (Raffel et al., 2020),DeBERTa (He et al., 2021)和GPT-2 (Radford et al., 2019))。这些预训练
模型为下游任务的适应提供了基础。 (iii) 以GPT-3 (Brown et al., 2020)为例,大型语言模型
(LLMs)将各种语言理解和生成任务统一到一个模型中。通过大规模训练和统一,出现了
一些新兴的能力,例如上下文学习和思维链。 (iv) 随着人工智能对齐的最新进展,LLMs开
始扮演起跟随人类意图完成各种语言任务的通用助手的角色,在野外显示出了有趣的能力,
如ChatGPT (OpenAI, 2022)和GPT-4 (OpenAI, 2023a)。这些助手展示了交互和工具使用等有
趣的能力,并为开发通用AI代理奠定了基础。有必要指出,最新的基础模型的迭代在保留
早期版本的显著特征的同时,还提供了额外的能力。
受LLMs在NLP领域的巨大成功启发, 计算机视觉和视觉语言社区的研究人员自然会问一
个问题:ChatGPT/GPT-4在视觉、视觉语言和多模态模型领域的对应物是什么?毫无疑问,
自BERT诞生以来,视觉预训练和视觉语言预训练(VLP)引起了越来越多的关注,并成为
视觉领域的主流学习范式,有望学习到通用可转移的视觉和视觉语言表示,或生成高度逼
真的图片。可以说,它们可以被视为多模态基础模型的早期代表,就像BERT/GPT-2对于语
言领域一样。虽然建立用于语言的ChatGPT等通用助手的路线图已经清晰,但对于计算机视
觉的对应物——通用视觉助手的研究社区越来越重要地需要探索可行的解决方案。总的来
说,构建通用代理一直是AI的长期目标。具有新出 现特性的LLMs大大降低了构建此类语言
任务代理的成本。相似地,我们预见到视觉模型的新兴能力,例如按照各种视觉提示(如用
户上传的图片、人类绘制的点击、草图和掩码)撰写的指示进行操作。这种强大的零样本视
觉任务组合能力可以显著降低构建AI代理的成本。
在本文中,我们将多模态基础模型的范围限定为视觉和视觉语言领域。关 于相关主题的最
近调查性论文包括:(i) 自监督学习等图像理解模型 (Jaiswal et al., 2020; Jing and Tian, 2020;
5
剩余126页未读,继续阅读
资源评论
Java要加糖吗
- 粉丝: 1
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 2022NOC软件创意编程赛项真题python小学高年级-决赛(有解析)
- mathml转换latex需要的xsl文件
- 2022NOC软件创意编程赛项真题图形化小学高年级-决赛赛(有解析)
- gbase驱动下载gbase-connector-java-8.3.81.53驱动下载
- 2022NOC软件创意编程赛项真题图形化小学低年级-决赛赛(有解析)
- InsightFace从青铜到王者,超大规模人脸识别的优雅解法
- python后端开发spider框架详解
- 基于 STM32 与 ESP8266 的智能家居系统源码.zip
- 毕业设计:基于SSM的mysql-个性化点餐配送系统(源码 + 数据库 + 说明文档)
- 基于matlab的鱼苗计数识别(GUI界面).zip代码57
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功