没有合适的资源?快使用搜索试试~ 我知道了~
(Gemini)双子座:一系列高能力多模态模型的前世今生
1 下载量 133 浏览量
2023-12-07
17:34:29
上传
评论
收藏 12.49MB DOCX 举报
温馨提示
试读
80页
(Gemini)双子座:一系列高能力多模态模型的前世今生
资源推荐
资源详情
资源评论
双子座:一系列高能力多模态模型
Gemini团队,Google1
本报告介绍了一种新的多模态模型家族Gemini,它在图像、音频、视频和文本理解方面具有卓越
的能力。Gemini系列包括Ultra、Pro和Nano三种尺寸,适用于从复杂的推理任务到设备内存受限
的应用场景。对广泛的基准测试的评估表明,我们最有能力的Gemini Ultra模型在32个基准测试
中的30个中提高了最先进的水平-特别是第一个在经过充分研究的考试基准测试MMLU上实现人类专
家性能的模型,并在我们检查的20个多模态基准测试中的每一个中提高了最先进的水平。我们相
信Gemini模型在跨模态推理和语言理解方面的新能力将能够实现各种用例,并且我们讨论了我们
负责任地向用户部署它们的方法。
1.
介绍
我们在Google开发了一系列高性能的多模态模型Gemini。我们通过图像、音频、视频和文本数据
共同训练了Gemini,目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖
端的理解和推理性能的模型。
Gemini 1.0,我们的第一个版本,有三种尺寸:Ultra适用于高度复杂的任务,Pro提供增强性
能和可扩展性,适用于大规模部署,Nano适用于设备上的应用程序。每个尺寸都经过特别设计以
满足不同的计算限制和应用要求。我们对Gemini模型在广泛的语言、编码、推理和多模态任务上
进行了全面的内部和外部基准测试。
Gemini 推 进 了 大 规 模 语 言 建 模 的 最 新 技 术 ( Anil 等 , 2023; Brown et al.,77.7%2023;
Hoffmann et al.,2022年;OpenAI,2023a;Radford等人,2019; Rae等人,2021年),图像理解
(Alayrac等人,2022年; Chen等人,2022年; Dosovitskiy等人。从中学和高中数学竞赛(MATH基
准)中抽取的难度增加的数学问题中观察到类似的积极趋势,Gemini Ultra模型表现优于所有竞
争对手模型,在4次提示下达到53.2%的准确率。2022年; 于等人,2017年)通过改进架构和模型
优化,实现了稳定的大规模训练和在Google的Tensor Processing Units上进行优化推理。2022a)
,音频处理(Radford等人,Google的2023年;张等人,2023年),以及视频理解(Alayrac等人
,2022年; Chen等人,2023年。它还基于序列模型的工作(Sutskever等人)。2014年,基于神经
网络的深度学习有着悠久的历史(LeCun等人)。此外,Gemini可以直接从通用语音模型(USM)
(Zhang等人,2020; Chowdhery等人,2015)中以16kHz的音频信号进行输入。2022; Bradbury等
人。2018; Dean et al.2012),使大规模培训成为可能。
我们最强大的模型Gemini Ultra在我们报告的32个基准测试中,在30个基准测试中取得了最新
的最先进结果,其中包括12个流行的文本和推理基准测试中的10个,9个图像理解基准测试中的9
个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。Gemini
Ultra是第一个在MMLU上实现人类专家水平表现的模型(Hendrycks等人)。2021 a)-通过一系列
考试测试知识和推理的突出基准-得分超过90%。除了文本,Gemini Ultra在具有挑战性的多模态
推理任务方面取得了显着进展。例如,在最近的MMMU基准(Yue等人,2023年),其中包括关于多
学科任务上的图像的问题,需要大学水平的学科知识
请参阅贡献和致谢部分以获取完整的作者列表。请发送信件至gemini-1-report@google.com
© 2023 Google.版权所有
Gemini: A Family of Highly Capable Multimodal Models
2
|
通过知识和深思熟虑的推理,Gemini Ultra实现了62.4%的最新技术水平,超过了之前最佳模型超
过5个百分点。它为视频问答和音频理解基准测试提供了统一的性能提升。
定性评估展示了令人印象深刻的跨模态推理能力,使模型能够原生地理解和推理音频、图像和
文本的输入序列(见图5和表13)。以图1所示的教育环境为例。一位老师画了一个物理问题,描
述了一个滑雪者下坡的情景,而一位学生已经解决了这个问题。通过双子座的多模态推理能力,
该模型能够理解混乱的手写文字,正确理解问题的表述,将问题和解决方案转换为数学排版,识
别学生在解决问题时出错的具体推理步骤,然后给出一个经过正确求解的问题的解答。这为令人
兴奋的教育可能性打开了大门,我们相信Gemini模型的新的多模态和推理能力在许多领域具有重
大应用。
图1 验证学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。除了理解
图像中的文本外,它还需要理解问题的设置并正确遵循指示以生成LATEX。
大型语言模型的推理能力显示出在构建能够解决更复杂的多步问题的通用代理方面的潜力。
AlphaCode团队构建了AlphaCode 2(Leblond等人,2023年),这是一个新的基于Gemini的代理程
序,它将Gemini的推理能力与搜索和工具使用相结合,以在解决竞争性编程问题方面表现出色。
AlphaCode 2在Codeforces竞技编程平台上排名前15%的参赛者中,相比于排名前50%的最新技术
前身有了很大的改进(Li等人)2022年)。
3
双子座:一系列高能力多模态模型
同时,我们通过Gemini Nano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些
模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并且相对于其大小,在推
理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。
在下面的部分中,我们首先提供模型架构、训练基础结构和训练数据集的概述。然后,我们提
出了详细的评估双子座模型的家庭,涵盖了良好的研究基准和人类偏好的评估文本,代码,图像,
音频和视频-其中包括英语性能和多语言能力。我们还讨论了我们负责任的部署方法,包括在部署
决策之前进行影响评估、制定模型策略、评估和减轻危害的过程。最后,我们讨论了Gemini的更广
泛影响,以及它的局限性和潜在应用,为人工智能研究和创新开辟了新时代的道路。
2.
模型架构
Gemini模型是基于Transformer解码器构建的(Vaswani等人,2020;OpenAI,2023b;Reed等人)
。例如,在HumanEval上,一个标准的代码补全基准(Chen等人,51.2%)。它们经过训练以支持
32k的上下文长度,采用高效的注意机制(例如,多查询注意力(Shazeer,2019))。我们的第
一个版本Gemini 1.0包括三种主要尺寸,以支持广泛的应用,如表1所述。
模型大小 模型描述
Ultra我们最强大的模型,可在各种高度复杂的任务(包括推理和多模式任务)中提供最先进的
性能。由于Gemini架构,它在TPU加速器上能够高效地进行规模化服务。
在成本和延迟方面优化的专业模型,能够在各种任务中提供显著的性能。该模型展示了强大的
推理性能和广泛的多模态能力。
Nano是我们最高效的型号,设计用于设备上运行。我们训练了两个版本的Nano,分别具有1.8B
(Nano-1)和3.25B(Nano-2)参数,分别针对低内存和高内存设备。它是通过从
更大的Gemini模型中提炼训练的。它经过4位量化以进行部署,并提供最佳性能。
表1 | Gemini 1.0模型系列概览。
Gemini模型经过训练,可以适应与各种音频和视觉输入(如自然图像、图表、屏幕截图、PDF
和视频)交织的文本输入,并且可以生成文本和图像输出(请参见图2)。Gemini模型的视觉编码
受到我们自己对Flamingo的基础工作的启发(Alayrac等人,2022)、CoCa(Yu等人,2022a)和
PaLI(Chen等人)2022年),重要的区别在于这些模型从一开始就是多模态的,并且可以使用离
散的图像标记本地输出图像(Ramesh等人)2021; Yu et al.,2022b)。
通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文
本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率,以便在计算上花费
更多的资源。
我们计划在Gemini Ultra型号正式发布之前,通过更多细节来更新这份报告。
Gemini: A Family of Highly Capable Multimodal Models
4
|
图2 Gemini支持以文本、图像、音频和视频的交错序列作为输入(在输入序列中用不同颜色的标
记表示)。它可以输出交错的图像和文本响应。
需要细粒度理解的任务。在这些基准测试中进行评估是具有挑战性的,并且可能受到数据污染的
影响。2023) 特点。这使模型能够捕捉通常在音频被简单地映射到文本输入时丢失的细微差别(例
如,请参阅网站上的音频理解演示)。
训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型,我们
基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练,利用了Ultra的一小部分资
源。Nano系列模型利用了蒸馏和训练算法的进一步改进,为各种任务(如摘要和阅读理解)提供了
最佳的小型语言模型,为我们的下一代设备体验提供动力。
3.
培训基础设施
我们使用TPUv5e和TPUv4(Jouppi等人)训练了Gemini模型。这些模型的大小和配置可能会有所不
同(取决于2023年)。训练Gemini Ultra使用了多个数据中心的大型TPUv4加速器群。这代表着相
对于我们之前的旗舰模型PaLM-2而言规模的显著增加,这也带来了新的基础设施挑战。加大加速
器数量会导致整个系统中硬件故障的平均时间间隔成比例地减少。我们尽量减少计划重新安排和
抢占的频率,但在如此大规模的硬件加速器中,由于宇宙射线等外部因素,真正的机器故障是普
遍存在的(Michalak等人,Gemini Pro是Gemini系列模型中第二大的模型,同时在提供服务时也
更加高效。
TPUv4加速器部署在4096个芯片的“SuperPods”中,每个芯片都连接到一个专用的光开关,可
以在大约10秒钟内将4x4x4芯片立方体动态重新配置为任意的3D环形拓扑结构(Jouppi等人,2023
年。对于Gemini Ultra,我们决定保留每个超级节点一小部分的立方体,以便进行热备份和滚动
维护。
TPU加速器主要通过高速芯片间互连进行通信,但在Gemini Ultra规模下,我们使用Google的
集群内和集群间网络将SuperPods组合在多个数据中心中(Poutievski等人,2022年;Wetherall
等人。2023年; 姚红等人2018年)。机器翻译是机器学习中的一个经典基准,具有丰富的历史。
Gemini: A Family of Highly Capable Multimodal Models
5
网络延迟和带宽足以支持常用的同步训练范式,在超级节点内利用模型并行性和超级节点间进行数
据并行性。
Jax的“单控制器”编程模型(Bradbury等人)。2018年)和Pathways(Barham等人。在2022年
,允许一个单独的Python进程来编排整个训练过程,极大地简化了开发工作流程。GSPMD分区器(
Xu等人,2019年)2021年,XLA编译器在训练步骤计算中进行了分区,并且MegaScale XLA编译器
(XLA,2019)通过静态调度适当的集合操作,以使其与计算最大程度地重叠,步骤时间变化很小
。
在这个规模上保持高吞吐量是不可能的,采用传统的周期性权重检查点到持久性集群存储的方
法。对于双子座,我们使用了模型状态的冗余内存副本,当出现任何意外的硬件故障时,我们可
以直接从完整的模型副本中快速恢复。的比较在2023年,尽管使用的训练资源显著增加,但这大
大加快了恢复时间。因此,最大规模的训练任务的整体吞吐量从85%增加到97%。
在前所未有的规模上进行的训练不可避免地会出现新的有趣的系统故障模式-在这种情况下,
我们需要解决的一个问题是“静默数据损坏(SDC)”(Dixit等,2021年),我们发现Gemini
Ultra在思维链和自洽性提示下达到了94.4%的准确率(Wang等)。2021年; Hochschild等人。2021
年;Vishwanathan等人,2023年)2015年。尽管这些情况非常罕见,但Gemini的规模意味着我们可
以预期SDC事件每一两周影响训练。快速检测和移除故障硬件需要利用确定性重放来隔离错误计算
的几种新技术,结合在空闲机器和热备份上的主动式SDC扫描器。我们完全确定性的基础设施使我
们能够在开发过程中快速识别到根本原因(包括硬件故障),这对于稳定的训练是至关重要的。
4.
训练数据集
Gemini模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用
来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。
我们使用SentencePiece分词器(Kudo和Richardson,2018),发现在整个训练语料库的大样
本上训练分词器可以改善推断的词汇,并进而提高模型性能。例如,我们发现Gemini模型可以高
效地标记非拉丁脚本,这反过来可以提高模型质量以及训练和推理速度。
训练最大模型所使用的标记数量是根据Hoffmann等人(2022)的方法确定的。为了在给定的推
理预算下提高性能,较小的模型被训练了更多的标记,类似于Touvron等人(2023a)提倡的方法
。
我们对所有数据集应用质量过滤器,使用启发式规则和基于模型的分类器。我们还进行安全过
滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验,
确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练,通过增加领域相关数据的权重
来改变混合组合,直到训练结束。我们发现数据质量对于一个高性能的模型至关重要,并且相信在
寻找预训练的最佳数据集分布方面还存在许多有趣的问题。
我们将goodput定义为在训练作业的经过时间内计算有用新步骤所花费的时间。
剩余79页未读,继续阅读
资源评论
猫头虎
- 粉丝: 25w+
- 资源: 437
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功