【免费】ChatGPT4.0论文（中文）-开放的人工智能.pdf资源-CSDN文库

自然语言处理

人工智能

需积分: 0 154 浏览量 2023-03-16 15:46:49 上传评论收藏 2.45MB PDF 举报

资源推荐

资源详情

资源评论

GPT-4技术报告

开放的人工智能

∗

摘要

我们报告了GPT-4的发展，这是一个大规模的多模态模型，它可以接受图像和

文本输入并产生文本输出。虽然在许多现实场景中，GPT-4的能力不如人类，

但在各种专业和学术基准上表现出了人类水平的表现，包括通过模拟律师资格

考试，成绩在前10%左右。GPT-4是一个预先训练过的基于转换器的模型，用于

预测文档中的下一个令牌。训练后的对齐过程提高了事实性测量和对期望行为

的坚持。该项目的一个核心组件是开发基础设施和优化方法，可预测的范围。

这使我们能够准确地预测GPT-4的某些方面

基于计算不超过GPT-4的1/1000的模型。

1介绍

本技术报告介绍了GPT-4，一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这

些模型是一个重要的研究领域，因为它们有潜力被用于广泛的应用中，如对话系统、文本摘要

和机器翻译。因此，它们一直是近年来[1–28]的重大兴趣和进展的主题。

开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和

更微妙的场景中。为了在这种情况下测试它的能力，GPT-4在最初为人类设计的各种测试中进行

了评估。在这些评估中，它的表现表现得相当好，而且得分往往超过了绝大多数的人类考生。

例如，在一个模拟的酒吧考试中，GPT-4的成绩排名前10%。这与GPT-3.5形成了鲜明对比，后者

排名倒数10%。

在一套传统的NLP基准测试中，GPT-4的性能优于以前的大型语言模型和大多数最先进的系统

（它们通常有特定于基准测试的培训或手工工程）。在MMLU基准测试[29,30]上，一套涵盖57个

科目的英语多项选择题，GPT-4不仅在英语方面远远超过了现有的模型，而且在其他语言中也表

现出了强大的性能。在MMLU的翻译变体上，GPT-4在26种语言中的24种中超过了最先进的英语语

言。我们将在后面的章节中更详细地讨论这些模型性能结果，以及模型安全性改进和结果。

本报告还讨论了该项目的一个关键挑战，开发深度学习基础设施和优化方法，在广泛的范围内

可以预测。这使得我们能够对GPT-4的预期性能（基于以类似方式训练的小运行）进行预测，并

与最终运行相比进行测试，以增加我们对训练的信心。

尽管GPT-4具有其能力，但与早期的GPT模型[1,31,32]有类似的局限性：它不完全可靠(e。g.会

遭受“幻觉”)，上下文窗口有限，并且不学习

请引用这篇作品为“OpenAI（ 2023）”。完整的作者贡献声明出现在文档的末尾。

从经验中…在使用GPT-4的输出时应注意，特别是在可靠性很重要的情况下。

GPT-4的能力和局限性带来了重大的和新的安全挑战，我们相信，考虑到潜在的社会影响，仔细

研究这些挑战是一个重要的研究领域。该报告包括一个广泛的系统卡（附录之后），描述了我

们预见的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散和其他方面的风险。它还描

述了我们为减轻GPT-4部署的潜在危害而采取的干预措施，包括与领域专家进行的对抗性测试，

以及一个模型辅助的安全管道。

2.本技术报告的范围和局限性

本报告重点介绍了GPT-4的能力、限制和安全性。GPT-4是一种转换器风格的模型[33]，预先训

练来预测文档中的下一个令牌，使用公开可用的数据（如互联网数据）和从第三方供应商许可

的数据。然后使用来自人类反馈（RLHF）的强化学习[34]对该模型进行了微调。考虑到像GPT-4

这样的大规模模型的竞争格局和安全影响，本报告没有包含关于架构（包括模型大小）、硬件

、训练计算、数据集构建、训练方法或类似内容的进一步细节。

我们致力于对我们的技术进行独立的审计，并在本版本附带的系统卡中分享了在这一领域的一

些初步步骤和想法。

我们计划向更多的第三方提供更多的技术细节，这些第三方可以就我们如

何权衡上述竞争和安全考虑与进一步提高透明度的科学价值提供建议。

3可预测的比例

GPT-4项目的一个主要重点是构建一个可预测的可扩展的深度学习堆栈。主要原因是，对于像

GPT-4这样的大规模训练运行，进行广泛的特定于模型的调优是不可行的。为了解决这个问题，

我们开发了基础设施和优化方法，它们具有跨多个尺度的非常可预测的行为。这些改进使我们

能够从使用1000×-10000×计算训练的小模型中可靠地预测GPT-4性能的某些方面。

.13损失预测

经过适当训练的大型语言模型的最终损失被认为是用用于训练模型[35,36,2,14,15]的计算量的

幂律来近似的。

为了验证我们的优化基础设施的可扩展性，我们通过拟合一个具有不可约损失项的尺度律来预

测GPT-4在我们的内部代码库（而不是训练集的一部分）上的最终损失(如Henighan等人。[15]):

L (C) = aC

+c，来自使用相同方法训练的模型，但最多比GPT-4少10000倍。这个预测是在运行

开始后不久做出的，没有使用任何部分结果。拟合的比例律对GPT-4的最终损失具有较高的精度

（图1）。

.23.人类的能力的扩展

在培训之前了解模型的能力，可以改善围绕对齐、安全和部署的决策。除了预测最终的损失之

外，我们还开发了预测更多可解释的能力指标的方法。其中一个指标是在HumanEval数据集[37]

上的通过率，它衡量了综合不同复杂度的Python函数的能力。通过从最多少计算1000×的模型

中推断，我们成功地预测了HumanEval数据集子集的通过率（图2）。

对于人类中的个体问题，表现偶尔会随着规模的扩大而恶化。尽管存在这些挑战，我们还是找

到了一个近似的幂律关系−E

[日志（pass_rate (C)）] = α *C

−k

除了附带的系统卡外，OpenAI还将很快发布关于人工智能系统的社会和经济影响的更多想法，包括对

有效监管的必要性。

其中k和α为正常数，P是数据集中问题的子集。我们假设这种关系适用于这个数据集中的所有

问题。在实践中，非常低的通通率很难或不可能估计，所以我们限制问题P和模型M，这样给定

一些大的样本预算，每个问题被每个模型至少解决一次。

我们在训练完成前，只使用GPT-4在人类eval上的信息，对其在人类环境上的表现进行了预测。

除了15个最难的人类问题外，所有问题都根据小模型的性能分成6个难度桶。结果在3上

最简

单的桶如图2所示，显示了这个人类问题子集非常准确，我们可以准确地估计几个较小模型的

log（pass_rate）。对其他五个桶的预测表现得几乎一样好，主要的例外是GPT-4的表现逊于我

们对最简单的桶的预测。

某些能力仍然难以预测。例如，逆尺度奖[38]提出了几个任务，其中模型的性能随着尺度的函

数而下降。这与Wei等人最近的一个研究结果类似。[39]，我们发现GPT-4逆转了这一趋势，如

图3中的一个任务称为事后忽略[40]所示。

图3。GPT-4和较小模型在事后忽视任务上的性能。y轴表示精度，越高越好。阿达、巴贝奇和库里

指的是可通过OpenAI API [41]获得的模型。

我们相信，准确预测未来的能力对安全很重要。接下来，我们计划在大型模型培训开始之前改

进这些方法，并注册跨各种能力的性能预测，我们希望这成为该领域的一个共同目标。

4个功能

我们在一系列不同的基准测试上测试了GPT-4，包括模拟最初为人类设计的测试。

我们没有为

这些考试进行过专门的培训。考试中的少数问题是模型在训练中看到的；对于每一个考试，我

们都运行一个变体，删除这些问题，并报告两个较低的分数。我们相信这些结果是具有代表性

的。有关污染的更多细节（检测方法和每次检查的统计数据），请参见附录C。

考试来源于公开可获得的材料。考试问题包括多重回答问题和自由回答问题；我们为每种格式

设计了单独的提示，图像被包含在需要它的问题的输入中。评估设置是基于一组验证考试的表

现而设计的，我们报告了保留测试考试的最终结果。总体分数是通过结合多项选择题的分数和

自由回答题的分数来确定的。关于考试评估方法的详情见附录A。

我们在这些考试中使用了训练后的RLHF模型。

考试

GPT-4

GPT-4（无视觉）

GPT-3.5

统一酒吧考试（MBE+MEE+MPT）

法学院入学考试

SAT循证阅读和写作

卫星数学

研究生成绩考试（GRE）定量

研究生成绩考试（GRE）

研究生成绩考试（GRE）写作

2020年USABO半决赛考试

USNCO本地分部考试2022年

医学知识自我评估计划

编码器额定值

AP艺术史

AP生物学

AP微积分BC

AP化学

美联社英语语言和作文

美联社英语文学与作文

AP环境科学

AP宏观经济学

AP微观经济学

AP物理2

AP心理学

AP统计信息

美联社美国政府

AP美国历史

AP世界历史

AMC 10

AMC 12

侍酒师（理论知识）

经认证的侍酒师（理论知识）

高级侍酒师（理论知识）

Leetcode（简单）

Leetcode（中）

Leetcode（硬）

298 / 400 (~90th)

163 (~88th)

710 / 800 (~93rd)

700 / 800 (~89th)

163 / 170 (~80th)

169 / 170 (~99th)

4 / 6 (~54th)

87 / 150 (99th -

100th) 36 /

75 %

392（低于5）

5 (86th - 100th)

5 (85th - 100th)

4 (43rd - 59th)

4 (71st - 88th)

2 (14th - 44th)

2 (8th - 22nd)

5 (91st - 100th)

5 (84th - 100th)

5 (82nd - 100th)

4 (66th - 84th)

5 (83rd - 100th)

5 (85th - 100th)

5 (88th - 100th)

5 (89th - 100th)

4 (65th - 87th)

30 / 150 (6th -

12th) 60 / 150

(45th - 66th)

92 %

86 %

77 %

31 / 41

21 / 80

3 / 45

298 / 400 (~90th)

161 (~83rd)

710 / 800 (~93rd)

690 / 800 (~89th)

157 / 170 (~62nd)

165 / 170 (~96th)

4 / 6 (~54th)

87 / 150 (99th -

100th) 38 /

75 %

392（低于5）

5 (86th - 100th)

5 (85th - 100th)

4 (43rd - 59th)

4 (71st - 88th)

2 (14th - 44th)

2 (8th - 22nd)

5 (91st - 100th)

5 (84th - 100th)

4 (60th - 82nd)

4 (66th - 84th)

5 (83rd - 100th)

5 (85th - 100th)

5 (88th - 100th)

4 (74th - 89th)

4 (65th - 87th)

36 / 150 (10th -

19th) 48 / 150

(19th - 40th)

92 %

86 %

77 %

31 / 41

21 / 80

3 / 45

213 / 400 (~10th)

149 (~40th)

670 / 800 (~87th)

590 / 800 (~70th)

147 / 170 (~25th)

154 / 170 (~63rd)

4 / 6 (~54th)

43 / 150 (31st -

33rd) 24 /

53 %

260（低于5）

5 (86th - 100th)

4 (62nd - 85th)

1 (0th - 7th)

2 (22nd - 46th)

2 (14th - 44th)

2 (8th - 22nd)

5 (91st - 100th)

2 (33rd - 48th)

4 (60th - 82nd)

3 (30th - 66th)

5 (83rd -

100th) 3

(40th -

63rd) 4

(77th -

88th) 4

(74th -

89th) 4

(65th -

87th)

36 / 150 (10th -

19th) 30 / 150

(4th - 8th)

80 %

58 %

46 %

12 / 41

8 / 80

0 / 45

表1。GPT在学术和专业考试中的表现。在每一种情况下，我们都模拟了真实考试的条件和评分。我

们报告了GPT-4的最终评分，根据特定特定的规则进行评分，以及达到GPT-4评分的考生的百分比。

剩余98页未读，继续阅读

评论收藏

内容反馈

CodingLife99

粉丝: 1106
资源: 451

ChatGPT4.0论文（中文）-开放的人工智能.pdf

ChatGPT4.0论文（中文）.pdf

ChatGPT4.0论文（英文）.zip

ChatGPT4.0论文（中文）.zip

chatGPT4.0介绍.zip

工业4.0研究院-ChatGPT对数字孪生体发展的启示-2023.2.16-32页.pdf

ChatGPT4.0论文（英文）.pdf

基于ChatGPT4.0的人工智能艺术设计走向分析.pdf

人工智能行业：ChatGPT的宏观视角-浙商证券-2023.3.18-41页.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智谱研究&AMiner-ChatGPT团队背景研究报告-2023.2-25页.pdf

【chatGPT入门必须】ChatGPT4.0 逆天插件功能.pdf

ChatGPT4.0论文（中英版）.zip

华东政法大学-人工智能通用大模型（ChatGPT）的进展、风险与应对-2023-54页.pdf

生成式人工智能的教育应用与...-以ChatGPT系统为例-卢宇.pdf

2023人工智能行业ChatGPT的宏观视角-浙商证券.pdf

哈尔滨工业大学-ChatGPT调研报告-20230306-94页.pdf

ChatGPT4.0中文版论文

ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf

ChatGPT 指令大全-强烈推荐查看.docx

stable-diffusion部署需要的包

大规模语言模型：从理论到实践

21个免费无限制免登录chatgpt资源， OpenAI GPT-4\3.5 模型的智能对话链接

人工智能大模型介绍.pptx

ChatGPT智能AI机器人微信小程序源码-带部署教程

llama3-中文微调训练集，让llama3更懂中文

最新资源