(Gemini)双子座：一系列高能力多模态模型的前世今生资源-CSDN文库

70 浏览量 2023-12-07 17:34:29 上传评论收藏 12.49MB DOCX 举报

Gemini双子座：一系列高能力多模态模型的前世今生 Gemini双子座是Google开发的一系列高性能的多模态模型，它们在图像、音频、视频和文本理解方面具有卓越的能力。Gemini系列包括Ultra、Pro和Nano三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。知识点1：多模态模型的发展多模态模型是指可以处理多种形式的输入数据（如图像、音频、视频和文本）的模型。Gemini双子座是基于深度学习技术的多模态模型，它可以处理图像、音频、视频和文本四种形式的输入数据。Gemini双子座的出现标志着多模态模型的发展进入了一个新的阶段。知识点2：Gemini双子座的架构设计 Gemini双子座的架构设计基于序列模型的工作，它可以处理长期依赖关系的序列数据。Gemini双子座的架构设计还基于神经网络的深度学习技术，可以实现稳定的大规模训练和优化推理。知识点3：Gemini双子座的多模态能力 Gemini双子座在多模态任务方面具有卓越的能力，它可以处理图像、音频、视频和文本四种形式的输入数据。Gemini双子座可以在图像理解、音频处理和视频理解方面实现优异的性能。知识点4：Gemini双子座在语言理解和推理方面的能力 Gemini双子座在语言理解和推理方面具有卓越的能力，它可以处理复杂的推理任务和语言理解任务。Gemini双子座可以在文本、图像、音频和视频四种形式的输入数据中实现优异的语言理解和推理能力。知识点5：Gemini双子座的应用前景 Gemini双子座的应用前景非常广泛，它可以应用于教育、健康、金融等多个领域。Gemini双子座可以帮助人们更好地理解和解决复杂的问题，具有重大的社会和经济价值。知识点6：Gemini双子座的技术指标 Gemini双子座的技术指标非常优异，它可以在32个基准测试中取得最新的最先进结果。在MMLU基准测试中，Gemini Ultra模型实现了人类专家水平表现的突破性成绩。知识点7：Gemini双子座的教育应用 Gemini双子座可以应用于教育领域，帮助学生更好地理解和解决复杂的问题。Gemini双子座可以帮助教师更好地教学和评估学生的学习效果。知识点8：Gemini双子座的健康应用 Gemini双子座可以应用于健康领域，帮助医生更好地理解和诊断疾病。Gemini双子座可以帮助医生更好地评估和预测疾病的发展趋势。知识点9：Gemini双子座的金融应用 Gemini双子座可以应用于金融领域，帮助金融机构更好地理解和预测市场趋势。Gemini双子座可以帮助金融机构更好地评估和管理风险。知识点10：Gemini双子座的社会影响 Gemini双子座的社会影响非常深远，它可以帮助人们更好地理解和解决复杂的问题，具有重大的社会和经济价值。Gemini双子座可以帮助人们更好地生活和工作，提高生活质量和工作效率。

资源推荐

资源详情

资源评论

双子座：一系列高能力多模态模型

Gemini团队，Google1

本报告介绍了一种新的多模态模型家族Gemini，它在图像、音频、视频和文本理解方面具有卓越

的能力。Gemini系列包括Ultra、Pro和Nano三种尺寸，适用于从复杂的推理任务到设备内存受限

的应用场景。对广泛的基准测试的评估表明，我们最有能力的Gemini Ultra模型在32个基准测试

中的30个中提高了最先进的水平-特别是第一个在经过充分研究的考试基准测试MMLU上实现人类专

家性能的模型，并在我们检查的20个多模态基准测试中的每一个中提高了最先进的水平。我们相

信Gemini模型在跨模态推理和语言理解方面的新能力将能够实现各种用例，并且我们讨论了我们

负责任地向用户部署它们的方法。

介绍

我们在Google开发了一系列高性能的多模态模型Gemini。我们通过图像、音频、视频和文本数据

共同训练了Gemini，目的是构建一个在各个模态中具有强大的通用能力以及在各个领域中具有尖

端的理解和推理性能的模型。

Gemini 1.0，我们的第一个版本，有三种尺寸：Ultra适用于高度复杂的任务，Pro提供增强性

能和可扩展性，适用于大规模部署，Nano适用于设备上的应用程序。每个尺寸都经过特别设计以

满足不同的计算限制和应用要求。我们对Gemini模型在广泛的语言、编码、推理和多模态任务上

进行了全面的内部和外部基准测试。

Gemini 推进了大规模语言建模的最新技术（ Anil 等， 2023; Brown et al.,77.7%2023;

Hoffmann et al.,2022年；OpenAI，2023a；Radford等人，2019; Rae等人，2021年），图像理解

（Alayrac等人，2022年; Chen等人,2022年; Dosovitskiy等人。从中学和高中数学竞赛（MATH基

准）中抽取的难度增加的数学问题中观察到类似的积极趋势，Gemini Ultra模型表现优于所有竞

争对手模型，在4次提示下达到53.2%的准确率。2022年; 于等人，2017年）通过改进架构和模型

优化，实现了稳定的大规模训练和在Google的Tensor Processing Units上进行优化推理。2022a)

，音频处理（Radford等人，Google的2023年；张等人，2023年），以及视频理解（Alayrac等人

，2022年; Chen等人,2023年。它还基于序列模型的工作（Sutskever等人）。2014年，基于神经

网络的深度学习有着悠久的历史（LeCun等人）。此外，Gemini可以直接从通用语音模型（USM）

（Zhang等人，2020; Chowdhery等人，2015）中以16kHz的音频信号进行输入。2022; Bradbury等

人。2018; Dean et al.2012），使大规模培训成为可能。

我们最强大的模型Gemini Ultra在我们报告的32个基准测试中，在30个基准测试中取得了最新

的最先进结果，其中包括12个流行的文本和推理基准测试中的10个，9个图像理解基准测试中的9

个，6个视频理解基准测试中的6个，以及5个语音识别和语音翻译基准测试中的5个。Gemini

Ultra是第一个在MMLU上实现人类专家水平表现的模型（Hendrycks等人）。2021 a）-通过一系列

考试测试知识和推理的突出基准-得分超过90%。除了文本，Gemini Ultra在具有挑战性的多模态

推理任务方面取得了显着进展。例如，在最近的MMMU基准（Yue等人，2023年），其中包括关于多

学科任务上的图像的问题，需要大学水平的学科知识

请参阅贡献和致谢部分以获取完整的作者列表。请发送信件至gemini-1-report@google.com

双子座：一系列高能力多模态模型

同时，我们通过Gemini Nano推进了效率的前沿，这是一系列针对设备部署的小型模型。这些

模型在设备上的任务中表现出色，如摘要、阅读理解、文本补全任务，并且相对于其大小，在推

理、STEM、编码、多模态和多语言任务中展示出令人印象深刻的能力。

在下面的部分中，我们首先提供模型架构、训练基础结构和训练数据集的概述。然后，我们提

出了详细的评估双子座模型的家庭，涵盖了良好的研究基准和人类偏好的评估文本，代码，图像，

音频和视频-其中包括英语性能和多语言能力。我们还讨论了我们负责任的部署方法，包括在部署

决策之前进行影响评估、制定模型策略、评估和减轻危害的过程。最后，我们讨论了Gemini的更广

泛影响，以及它的局限性和潜在应用，为人工智能研究和创新开辟了新时代的道路。

模型架构

Gemini模型是基于Transformer解码器构建的（Vaswani等人，2020；OpenAI，2023b；Reed等人）

。例如，在HumanEval上，一个标准的代码补全基准（Chen等人，51.2%）。它们经过训练以支持

32k的上下文长度，采用高效的注意机制（例如，多查询注意力（Shazeer，2019））。我们的第

一个版本Gemini 1.0包括三种主要尺寸，以支持广泛的应用，如表1所述。

模型大小模型描述

Ultra我们最强大的模型，可在各种高度复杂的任务（包括推理和多模式任务）中提供最先进的

性能。由于Gemini架构，它在TPU加速器上能够高效地进行规模化服务。

在成本和延迟方面优化的专业模型，能够在各种任务中提供显著的性能。该模型展示了强大的

推理性能和广泛的多模态能力。

Nano是我们最高效的型号，设计用于设备上运行。我们训练了两个版本的Nano，分别具有1.8B

（Nano-1）和3.25B（Nano-2）参数，分别针对低内存和高内存设备。它是通过从

更大的Gemini模型中提炼训练的。它经过4位量化以进行部署，并提供最佳性能。

表1 | Gemini 1.0模型系列概览。

Gemini模型经过训练，可以适应与各种音频和视觉输入（如自然图像、图表、屏幕截图、PDF

和视频）交织的文本输入，并且可以生成文本和图像输出（请参见图2）。Gemini模型的视觉编码

受到我们自己对Flamingo的基础工作的启发（Alayrac等人，2022）、CoCa（Yu等人，2022a）和

PaLI（Chen等人）2022年），重要的区别在于这些模型从一开始就是多模态的，并且可以使用离

散的图像标记本地输出图像（Ramesh等人）2021; Yu et al.,2022b)。

通过将视频编码为大上下文窗口中的一系列帧来实现视频理解。视频帧或图像可以自然地与文

本或音频交错作为模型输入的一部分。这些模型可以处理可变的输入分辨率，以便在计算上花费

更多的资源。

我们计划在Gemini Ultra型号正式发布之前，通过更多细节来更新这份报告。

Gemini: A Family of Highly Capable Multimodal Models

图2 Gemini支持以文本、图像、音频和视频的交错序列作为输入（在输入序列中用不同颜色的标

记表示）。它可以输出交错的图像和文本响应。

需要细粒度理解的任务。在这些基准测试中进行评估是具有挑战性的，并且可能受到数据污染的

影响。2023) 特点。这使模型能够捕捉通常在音频被简单地映射到文本输入时丢失的细微差别（例

如，请参阅网站上的音频理解演示）。

训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型，我们

基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练，利用了Ultra的一小部分资

源。Nano系列模型利用了蒸馏和训练算法的进一步改进，为各种任务（如摘要和阅读理解）提供了

最佳的小型语言模型，为我们的下一代设备体验提供动力。

培训基础设施

我们使用TPUv5e和TPUv4（Jouppi等人）训练了Gemini模型。这些模型的大小和配置可能会有所不

同（取决于2023年）。训练Gemini Ultra使用了多个数据中心的大型TPUv4加速器群。这代表着相

对于我们之前的旗舰模型PaLM-2而言规模的显著增加，这也带来了新的基础设施挑战。加大加速

器数量会导致整个系统中硬件故障的平均时间间隔成比例地减少。我们尽量减少计划重新安排和

抢占的频率，但在如此大规模的硬件加速器中，由于宇宙射线等外部因素，真正的机器故障是普

遍存在的（Michalak等人，Gemini Pro是Gemini系列模型中第二大的模型，同时在提供服务时也

更加高效。

TPUv4加速器部署在4096个芯片的“SuperPods”中，每个芯片都连接到一个专用的光开关，可

以在大约10秒钟内将4x4x4芯片立方体动态重新配置为任意的3D环形拓扑结构（Jouppi等人，2023

年。对于Gemini Ultra，我们决定保留每个超级节点一小部分的立方体，以便进行热备份和滚动

维护。

TPU加速器主要通过高速芯片间互连进行通信，但在Gemini Ultra规模下，我们使用Google的

集群内和集群间网络将SuperPods组合在多个数据中心中（Poutievski等人，2022年；Wetherall

等人。2023年; 姚红等人2018年）。机器翻译是机器学习中的一个经典基准，具有丰富的历史。

Gemini: A Family of Highly Capable Multimodal Models

网络延迟和带宽足以支持常用的同步训练范式，在超级节点内利用模型并行性和超级节点间进行数

据并行性。

Jax的“单控制器”编程模型（Bradbury等人）。2018年)和Pathways（Barham等人。在2022年

，允许一个单独的Python进程来编排整个训练过程，极大地简化了开发工作流程。GSPMD分区器（

Xu等人，2019年）2021年，XLA编译器在训练步骤计算中进行了分区，并且MegaScale XLA编译器

（XLA，2019）通过静态调度适当的集合操作，以使其与计算最大程度地重叠，步骤时间变化很小

。

在这个规模上保持高吞吐量是不可能的，采用传统的周期性权重检查点到持久性集群存储的方

法。对于双子座，我们使用了模型状态的冗余内存副本，当出现任何意外的硬件故障时，我们可

以直接从完整的模型副本中快速恢复。的比较在2023年，尽管使用的训练资源显著增加，但这大

大加快了恢复时间。因此，最大规模的训练任务的整体吞吐量从85%增加到97%。

在前所未有的规模上进行的训练不可避免地会出现新的有趣的系统故障模式-在这种情况下，

我们需要解决的一个问题是“静默数据损坏（SDC）”（Dixit等，2021年），我们发现Gemini

Ultra在思维链和自洽性提示下达到了94.4%的准确率（Wang等）。2021年; Hochschild等人。2021

年；Vishwanathan等人，2023年）2015年。尽管这些情况非常罕见，但Gemini的规模意味着我们可

以预期SDC事件每一两周影响训练。快速检测和移除故障硬件需要利用确定性重放来隔离错误计算

的几种新技术，结合在空闲机器和热备份上的主动式SDC扫描器。我们完全确定性的基础设施使我

们能够在开发过程中快速识别到根本原因（包括硬件故障），这对于稳定的训练是至关重要的。

训练数据集

Gemini模型是在一个既包含多模态又包含多语言的数据集上进行训练的。我们的预训练数据集使用

来自网络文档、书籍和代码的数据，并包括图像、音频和视频数据。

我们使用SentencePiece分词器（Kudo和Richardson，2018），发现在整个训练语料库的大样

本上训练分词器可以改善推断的词汇，并进而提高模型性能。例如，我们发现Gemini模型可以高

效地标记非拉丁脚本，这反过来可以提高模型质量以及训练和推理速度。

训练最大模型所使用的标记数量是根据Hoffmann等人（2022）的方法确定的。为了在给定的推

理预算下提高性能，较小的模型被训练了更多的标记，类似于Touvron等人（2023a）提倡的方法

。

我们对所有数据集应用质量过滤器，使用启发式规则和基于模型的分类器。我们还进行安全过

滤以删除有害内容。我们从训练语料库中筛选出我们的评估集。通过对较小的模型进行消融实验，

确定了最终的数据混合和权重。我们在训练过程中进行分阶段训练，通过增加领域相关数据的权重

来改变混合组合，直到训练结束。我们发现数据质量对于一个高性能的模型至关重要，并且相信在

寻找预训练的最佳数据集分布方面还存在许多有趣的问题。

我们将goodput定义为在训练作业的经过时间内计算有用新步骤所花费的时间。

剩余79页未读，继续阅读

评论收藏

内容反馈

猫头虎

粉丝: 33w+
资源: 554

(Gemini)双子座：一系列高能力多模态模型的前世今生

通过Gemini双子座模型生成式AI检测图像

微软AI大模型Gemini功能强大的多模态模型2023英文版50页

AIGC多模态大模型进展与应用：国内外发展对比及市场潜力展望

gemini:双子座设计系统

gemini-snippets:一系列Sublime Text片段，可加快Gemini CSS和Gemini JS的开发速度

Gemini双子星19键宏编程RGB摇杆游戏鼠标驱动-1.0版本

gemini-oj:双子座在线裁判

gemini3d：电离层流体电动力学模型

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

计算机行业动态跟踪报告：多模态能力表现亮眼，谷歌携Gemini王者归来.pdf

gemini-notes:双子座PDA笔记

双子座：探索遗传变异的轻量级数据库框架

双子座：:skull::skull::skull:[不推荐使用]使用赫敏

gemini-server:基于express的gemini协议的节点服务器

gemini-beefy:为您的双子星座测试服务

gemini-ios：Elaho-Gemini协议的iOS浏览器

gemini:双子座是现代LaTex Beamerposter主题:framed_picture:

gemini-client:Gemini API的NodeJS包装器

2023年GPT-4v多模态技术进展与应用前景分析

springboot-starter-gemini 一个基于gemini提供的springboot sdk

gemini-python：Gemini API和Websocket的python客户端

gemini-ecstatic:从狂喜的服务器上进行测试

Ascom.Gemini.Telescope:适用于Gemini 4级及更高级别的ASCOM Gemini望远镜和聚焦器驱动程序

Gemini:用于构建MVI架构的轻量级库

gemini-core:该实用程序包含双子星座和赫敏的通用模块

gemini-server:Golang编写的易于使用的gemini服务器

mixxx-gemini-gmx：Mixxx的Gemini GMX映射和脚本

gemini-examples:一组脚本，其中包含有关如何初始化和运行GEMINI的不同示例

gemini-backend：由Go，GORM，JWT和Gorilla Mux制成的Gemini后端

最新资源