没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
99页
本技术报告介绍了GPT-4,一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这些模型是一个重要的研究领域,因为它们有潜力被用于广泛的应用中,如对话系统、文本摘要和机器翻译。因此,它们一直是近年来[1–28]的重大兴趣和进展的主题。 开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和更微妙的场景中。为了在这种情况下测试它的能力,GPT-4在最初为人类设计的各种测试中进行了评估。在这些评估中,它的表现表现得相当好,而且得分往往超过了绝大多数的人类考生。例如,在一个模拟的酒吧考试中,GPT-4的成绩排名前10%。这与GPT-3.5形成了鲜明对比,后者排名倒数10%。在一套传统的NLP基准测试中,GPT-4的性能优于以前的大型语言模型和大多数最先进的系统(它们通常有特定于基准测试的培训或手工工程)。在MMLU基准测试[29,30]上,一套涵盖57个科目的英语多项选择题,GPT-4不仅在英语方面远远超过了现有的模型,而且在其他语言中也表现出了强大的性能。在MMLU的翻译变体上,GPT-4在26种语言中的24种中超过了最先进的英语语言。
资源推荐
资源详情
资源评论
GPT-4技术报告
开放的人工智能
∗
摘要
我们报告了GPT-4的发展,这是一个大规模的多模态模型,它可以接受图像和
文本输入并产生文本输出。虽然在许多现实场景中,GPT-4的能力不如人类,
但在各种专业和学术基准上表现出了人类水平的表现,包括通过模拟律师资格
考试,成绩在前10%左右。GPT-4是一个预先训练过的基于转换器的模型,用于
预测文档中的下一个令牌。训练后的对齐过程提高了事实性测量和对期望行为
的坚持。该项目的一个核心组件是开发基础设施和优化方法,可预测的范围。
这使我们能够准确地预测GPT-4的某些方面
基于计算不超过GPT-4的1/1000的模型。
1介绍
本技术报告介绍了GPT-4,一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这
些模型是一个重要的研究领域,因为它们有潜力被用于广泛的应用中,如对话系统、文本摘要
和机器翻译。因此,它们一直是近年来[1–28]的重大兴趣和进展的主题。
开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和
更微妙的场景中。为了在这种情况下测试它的能力,GPT-4在最初为人类设计的各种测试中进行
了评估。在这些评估中,它的表现表现得相当好,而且得分往往超过了绝大多数的人类考生。
例如,在一个模拟的酒吧考试中,GPT-4的成绩排名前10%。这与GPT-3.5形成了鲜明对比,后者
排名倒数10%。
在一套传统的NLP基准测试中,GPT-4的性能优于以前的大型语言模型和大多数最先进的系统
(它们通常有特定于基准测试的培训或手工工程)。在MMLU基准测试[29,30]上,一套涵盖57个
科目的英语多项选择题,GPT-4不仅在英语方面远远超过了现有的模型,而且在其他语言中也表
现出了强大的性能。在MMLU的翻译变体上,GPT-4在26种语言中的24种中超过了最先进的英语语
言。我们将在后面的章节中更详细地讨论这些模型性能结果,以及模型安全性改进和结果。
本报告还讨论了该项目的一个关键挑战,开发深度学习基础设施和优化方法,在广泛的范围内
可以预测。这使得我们能够对GPT-4的预期性能(基于以类似方式训练的小运行)进行预测,并
与最终运行相比进行测试,以增加我们对训练的信心。
尽管GPT-4具有其能力,但与早期的GPT模型[1,31,32]有类似的局限性:它不完全可靠(e。g.会
遭受“幻觉”),上下文窗口有限,并且不学习
*
请引用这篇作品为“OpenAI( 2023)”。完整的作者贡献声明出现在文档的末尾。
2
从经验中…在使用GPT-4的输出时应注意,特别是在可靠性很重要的情况下。
GPT-4的能力和局限性带来了重大的和新的安全挑战,我们相信,考虑到潜在的社会影响,仔细
研究这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡(附录之后),描述了我
们预见的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散和其他方面的风险。它还描
述了我们为减轻GPT-4部署的潜在危害而采取的干预措施,包括与领域专家进行的对抗性测试,
以及一个模型辅助的安全管道。
2.本技术报告的范围和局限性
本报告重点介绍了GPT-4的能力、限制和安全性。GPT-4是一种转换器风格的模型[33],预先训
练来预测文档中的下一个令牌,使用公开可用的数据(如互联网数据)和从第三方供应商许可
的数据。然后使用来自人类反馈(RLHF)的强化学习[34]对该模型进行了微调。考虑到像GPT-4
这样的大规模模型的竞争格局和安全影响,本报告没有包含关于架构(包括模型大小)、硬件
、训练计算、数据集构建、训练方法或类似内容的进一步细节。
我们致力于对我们的技术进行独立的审计,并在本版本附带的系统卡中分享了在这一领域的一
些初步步骤和想法。
2
我们计划向更多的第三方提供更多的技术细节,这些第三方可以就我们如
何权衡上述竞争和安全考虑与进一步提高透明度的科学价值提供建议。
3可预测的比例
GPT-4项目的一个主要重点是构建一个可预测的可扩展的深度学习堆栈。主要原因是,对于像
GPT-4这样的大规模训练运行,进行广泛的特定于模型的调优是不可行的。为了解决这个问题,
我们开发了基础设施和优化方法,它们具有跨多个尺度的非常可预测的行为。这些改进使我们
能够从使用1000×-10000×计算训练的小模型中可靠地预测GPT-4性能的某些方面。
.13损失预测
经过适当训练的大型语言模型的最终损失被认为是用用于训练模型[35,36,2,14,15]的计算量的
幂律来近似的。
为了验证我们的优化基础设施的可扩展性,我们通过拟合一个具有不可约损失项的尺度律来预
测GPT-4在我们的内部代码库(而不是训练集的一部分)上的最终损失(如Henighan等人。[15]):
L (C) = aC
b
+c,来自使用相同方法训练的模型,但最多比GPT-4少10000倍。这个预测是在运行
开始后不久做出的,没有使用任何部分结果。拟合的比例律对GPT-4的最终损失具有较高的精度
(图1)。
.23.人类的能力的扩展
在培训之前了解模型的能力,可以改善围绕对齐、安全和部署的决策。除了预测最终的损失之
外,我们还开发了预测更多可解释的能力指标的方法。其中一个指标是在HumanEval数据集[37]
上的通过率,它衡量了综合不同复杂度的Python函数的能力。通过从最多少计算1000×的模型
中推断,我们成功地预测了HumanEval数据集子集的通过率(图2)。
对于人类中的个体问题,表现偶尔会随着规模的扩大而恶化。尽管存在这些挑战,我们还是找
到了一个近似的幂律关系−E
P
[日志(pass_rate (C))] = α *C
−k
2
除了附带的系统卡外,OpenAI还将很快发布关于人工智能系统的社会和经济影响的更多想法,包括对
有效监管的必要性。
3
OpenAI代码库的下一个单词预测
图1。GPT-4和较小型号的性能。该度量是来自我们内部代码库的数据集的最终损失。这是一个方便
的、大的代码标记数据集,它不包含在训练集中。我们选择关注损失,因为在不同数量的训练计算
中,它往往比其他测量方法的噪声更小。虚线表示了适合较小模型(不包括GPT-4)的幂律;这种
拟合准确地预测了GPT-4的最终损失。x轴是训练计算
标准化,使GPT-4为1。
对23个编码问题的能力预测
-平均对数通过率
图2。GPT-4和较小型号的性能。该度量是在HumanEval数据集的一个子集上的平均对数通过率。虚
线表示了适合较小模型(不包括GPT-4)的幂律;这种拟合准确地预测了GPT-4的性能。x轴是训练
计算归一化的
GPT-4是1。
4
其中k和α为正常数,P是数据集中问题的子集。我们假设这种关系适用于这个数据集中的所有
问题。在实践中,非常低的通通率很难或不可能估计,所以我们限制问题P和模型M,这样给定
一些大的样本预算,每个问题被每个模型至少解决一次。
我们在训练完成前,只使用GPT-4在人类eval上的信息,对其在人类环境上的表现进行了预测。
除了15个最难的人类问题外,所有问题都根据小模型的性能分成6个难度桶。结果在3上
rd
最简
单的桶如图2所示,显示了这个人类问题子集非常准确,我们可以准确地估计几个较小模型的
log(pass_rate)。对其他五个桶的预测表现得几乎一样好,主要的例外是GPT-4的表现逊于我
们对最简单的桶的预测。
某些能力仍然难以预测。例如,逆尺度奖[38]提出了几个任务,其中模型的性能随着尺度的函
数而下降。这与Wei等人最近的一个研究结果类似。[39],我们发现GPT-4逆转了这一趋势,如
图3中的一个任务称为事后忽略[40]所示。
图3。GPT-4和较小模型在事后忽视任务上的性能。y轴表示精度,越高越好。阿达、巴贝奇和库里
指的是可通过OpenAI API [41]获得的模型。
我们相信,准确预测未来的能力对安全很重要。接下来,我们计划在大型模型培训开始之前改
进这些方法,并注册跨各种能力的性能预测,我们希望这成为该领域的一个共同目标。
4个功能
我们在一系列不同的基准测试上测试了GPT-4,包括模拟最初为人类设计的测试。
3
我们没有为
这些考试进行过专门的培训。考试中的少数问题是模型在训练中看到的;对于每一个考试,我
们都运行一个变体,删除这些问题,并报告两个较低的分数。我们相信这些结果是具有代表性
的。有关污染的更多细节(检测方法和每次检查的统计数据),请参见附录C。
考试来源于公开可获得的材料。考试问题包括多重回答问题和自由回答问题;我们为每种格式
设计了单独的提示,图像被包含在需要它的问题的输入中。评估设置是基于一组验证考试的表
现而设计的,我们报告了保留测试考试的最终结果。总体分数是通过结合多项选择题的分数和
自由回答题的分数来确定的。关于考试评估方法的详情见附录A。
3
我们在这些考试中使用了训练后的RLHF模型。
5
考试
GPT-4
GPT-4(无视觉)
GPT-3.5
统一酒吧考试(MBE+MEE+MPT)
法学院入学考试
SAT循证阅读和写作
卫星数学
研究生成绩考试(GRE)定量
研究生成绩考试(GRE)
研究生成绩考试(GRE)写作
2020年USABO半决赛考试
USNCO本地分部考试2022年
医学知识自我评估计划
编码器额定值
AP艺术史
AP生物学
AP微积分BC
AP化学
美联社英语语言和作文
美联社英语文学与作文
AP环境科学
AP宏观经济学
AP微观经济学
AP物理2
AP心理学
AP统计信息
美联社美国政府
AP美国历史
AP世界历史
AMC 10
AMC 12
侍酒师(理论知识)
经认证的侍酒师(理论知识)
高级侍酒师(理论知识)
Leetcode(简单)
Leetcode(中)
Leetcode(硬)
298 / 400 (~90th)
163 (~88th)
710 / 800 (~93rd)
700 / 800 (~89th)
163 / 170 (~80th)
169 / 170 (~99th)
4 / 6 (~54th)
87 / 150 (99th -
100th) 36 /
60
75 %
392(低于5)
5 (86th - 100th)
5 (85th - 100th)
4 (43rd - 59th)
4 (71st - 88th)
2 (14th - 44th)
2 (8th - 22nd)
5 (91st - 100th)
5 (84th - 100th)
5 (82nd - 100th)
4 (66th - 84th)
5 (83rd - 100th)
5 (85th - 100th)
5 (88th - 100th)
5 (89th - 100th)
4 (65th - 87th)
30 / 150 (6th -
12th) 60 / 150
(45th - 66th)
92 %
86 %
77 %
31 / 41
21 / 80
3 / 45
298 / 400 (~90th)
161 (~83rd)
710 / 800 (~93rd)
690 / 800 (~89th)
157 / 170 (~62nd)
165 / 170 (~96th)
4 / 6 (~54th)
87 / 150 (99th -
100th) 38 /
60
75 %
392(低于5)
5 (86th - 100th)
5 (85th - 100th)
4 (43rd - 59th)
4 (71st - 88th)
2 (14th - 44th)
2 (8th - 22nd)
5 (91st - 100th)
5 (84th - 100th)
4 (60th - 82nd)
4 (66th - 84th)
5 (83rd - 100th)
5 (85th - 100th)
5 (88th - 100th)
4 (74th - 89th)
4 (65th - 87th)
36 / 150 (10th -
19th) 48 / 150
(19th - 40th)
92 %
86 %
77 %
31 / 41
21 / 80
3 / 45
213 / 400 (~10th)
149 (~40th)
670 / 800 (~87th)
590 / 800 (~70th)
147 / 170 (~25th)
154 / 170 (~63rd)
4 / 6 (~54th)
43 / 150 (31st -
33rd) 24 /
60
53 %
260(低于5)
5 (86th - 100th)
4 (62nd - 85th)
1 (0th - 7th)
2 (22nd - 46th)
2 (14th - 44th)
2 (8th - 22nd)
5 (91st - 100th)
2 (33rd - 48th)
4 (60th - 82nd)
3 (30th - 66th)
5 (83rd -
100th) 3
(40th -
63rd) 4
(77th -
88th) 4
(74th -
89th) 4
(65th -
87th)
36 / 150 (10th -
19th) 30 / 150
(4th - 8th)
80 %
58 %
46 %
12 / 41
8 / 80
0 / 45
表1。GPT在学术和专业考试中的表现。在每一种情况下,我们都模拟了真实考试的条件和评分。我
们报告了GPT-4的最终评分,根据特定特定的规则进行评分,以及达到GPT-4评分的考生的百分比。
剩余98页未读,继续阅读
资源评论
CodingLife99
- 粉丝: 1106
- 资源: 451
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功