没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
157页
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。
资源推荐
资源详情
资源评论
1
人工通用智能的火花:GPT
-4
的早期实验
S´ebastienBubeck Varun Chandrasekaran Ronen Eldan Johannes Gehrke
Eric HorvitzKamar
Peter Lee
Yin Tat Lee Yuanzhi Li
Scott Lundberg
Harsha
NoriHamid
PalangiMarco Tulio
RibeiroYi Zhang
微软研究院
摘要
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现
出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有
的计算和数据规模训练出来的。在本文中,我们报告了我们对
GPT
-4早期版本的调查,当时
它还在
OpenAI
的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的
PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证
明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难
的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且
往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通
用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性
,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测
的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。
内容
1
介紹 4
1.1 我们研究GPT-4情报的方法 7
1.2 组织我们的示范活动。 8
2
多模态和跨学科构成
13
2.1 综合能力..........................................................................................................................................13
2.2 愿景
.................................................................................................................................................
16
2.2.1 超越记忆的图像生成
.............................................................................................................
16
2.2.2
按照详细的指示生成图像(
`
a
la Dall-E)。........................................................................17
2.2.3
在草图生成中可能的应用.....................................................................................................
18
2.3 音乐
.................................................................................................................................................
19
3
编码
21
3.1 从指令到代码...................................................................................................................................21
3.1.1
编码挑战..............................................................................................................................
21
3.1.2
现实世界的情景...................................................................................................................
22
3.2 了解现有代码...................................................................................................................................26
2
4
数学能力
30
4.1
与GPT-4的数学对话
........................................................................................................................31
4.1.1 对原问题的第一个概括.........................................................................................................31
4.1.2 原问题的第二个变体 ............................................................................................................32
4.1.3 对谈话中强调的局限性的分析 ..............................................................................................34
4.2 数学问题数据集上的表现 .................................................................................................................35
4.3 各个领域的数学建模 ........................................................................................................................37
4.4 高等数学 ..........................................................................................................................................39
5
与世界的互动
43
5.1 工具的使用 ......................................................................................................................................43
5.1.1 使用多种工具来解决更复杂的任务.......................................................................................44
5.1.2 讨论......................................................................................................................................49
5.2 体现的互动 ......................................................................................................................................49
5.2.1 热身运动:地图导航 ............................................................................................................49
5.2.2 基于文本的游戏 ....................................................................................................................49
5.2.3 真实世界的问题 ...................................................................................................................52
5.2.4 讨论......................................................................................................................................53
6
与人类的互动
54
6.1 了解人类:心智理论 ........................................................................................................................54
6.1.1 测试心智理论的具体方面 .....................................................................................................54
6.1.2 在现实的场景中测试心智理论 ..............................................................................................54
6.1.3 讨论......................................................................................................................................60
6.2 与人类对话:可解释性 ....................................................................................................................60
7
辨别能力
69
7.1 PII检测.............................................................................................................................................69
7.2 误解与事实核查 ...............................................................................................................................70
7.2.1 为什么目前的衡量标准是不充分的? ...................................................................................71
7.2.2
担任法官的GPT-4
................................................................................................................73
8
GPT-4所强调的自回归结构的局限性
76
8.1 用两个基本的例子进行热身 .............................................................................................................76
8.2 在算术/推理问题上缺乏计划性 ........................................................................................................77
8.3 在文本生成中缺乏规划 ....................................................................................................................78
9
社会影响
82
9.1 错误世代的挑战................................................................................................................................82
9.2 虚假信息和操纵 ...............................................................................................................................83
9.3 偏向 .................................................................................................................................................86
9.4 人的专长、工作和经济 ....................................................................................................................89
9.5 影响因素和考虑因素的组合 .............................................................................................................90
10
方向和结论
92
10.1 智能、人工智能和AGI的定义...........................................................................................................92
10.2 在通往更普遍的人工智能的道路上 ..................................................................................................93
10.3 实际上发生了什么? ........................................................................................................................94
一个GPT-4有常识性接地 101
B 多模态和跨学科组成的附录
105
B.1 关于综合能力结果的进一步细节 ....................................................................................................105
B.2 关于视觉结果的进一步细节 ...........................................................................................................108
3
B.3 平面小说设计实例..........................................................................................................................110
C 编码部分的附录
111
C.1
测量人类在LeetCode上的表现
.......................................................................................................111
C.2 GPT-4可视化IMDb数据的例子。...................................................................................................112
C.3 更多关于可视化的例子...................................................................................................................115
C.4 二维HTML游戏开发实例................................................................................................................116
C.5 图形用户界面编程的例子...............................................................................................................116
C.6 逆向工程的例子 .............................................................................................................................119
C.7 测试GPT-4执行(伪)代码的能力.................................................................................................121
D 数学推理的其他例子
122
D.1 限制条件 ........................................................................................................................................122
D.2 更多的例子 ....................................................................................................................................126
D.3 用GPT-4生成数学问题...................................................................................................................138
D.4 通过外部代码执行减轻计算错误 ....................................................................................................139
E 其他可解释的例子
141
E.1 解释代理不匹配 .............................................................................................................................141
F 与世界互动的其他例子
144
F.1 与工具互动 ....................................................................................................................................144
F.2 与环境互动的例子 .........................................................................................................................149
4
一些未知的东西正在做我们不知道的事情。
- 阿瑟-爱丁顿爵士
1
简介
智力是一个多方面的、难以捉摸的概念,长期以来一直对心理学家、哲学家和计算机科学家构成挑战。1994
年,一个由52位心理学家组成的小组试图抓住其本质,他们在一篇关于智力科学的社论中发表了一个广泛的
定义
[Got97]
。该共识小组将智力定义为
一种非常普遍的心理能力,其中包括推理、计划、解决问题、抽象
思考、理解复杂概念、快速学习和从经验中学习的能力
。这个定义意味着智能并不局限于某个特定的领域或
任务,而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统
是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中,现代人工智能(AI)研究学科的创始人
提出了一系列理解智能的理想目标[MMRS06]。几十年来,人工智能研究者们一直在追求智能的原则,包括
可推广的推理机制(例如,[NSS59], [LBFL93])和构建包含大量常识性知识的知识库[Len95]。然而,人工智
能研究中最近的许多成功可以说是狭隘地专注于定义明确的任务和挑战,例如下棋或围棋,人工智能系统分
别在1996年和2016年掌握了这些任务。在1990年代末和进入2000年后,开发更普遍的人工智能系统的呼声
越来越高(例如,[SBD
+
96]),该领域的学术研究也试图确定可能成为更普遍的智能系统基础的原则(例
如,[Leg08, GHT15])。2000年代初,"人工通用智能"(AGI)这一短语被推广开来(见[Goe14]),以强
调从 "狭义的人工智能"(如正在开发的专注的现实世界的应用)向更广泛的智能概念发展的愿望。
我们使用AGI来指代那些表现出上述1994年定义的广泛智能能力的系统,同时还要求这些能力达到或超过人
类水平。我们用AGI来指代那些表现出上述1994年定义中的广泛智能能力的系统,以及额外的要求,也许是
在共识小组的工作中隐含的,即这些能力达到或超过人类水平。然而,我们注意到,没有一个单一的AGI定
义被广泛接受,我们在结论部分讨论了其他定义。
过去几年,人工智能研究中最显著的突破是大型语言模型(LLMs)在自然语言处理方面取得的进展。这
些神经网络模型基于Transformer架构[VSP
+
17],并在大规模的网络文本数据体上进行训练,其核心是使用
一个自我监督的目标来预测部分句子中的下一个单词。在本文中,我们报告了由OpenAI开发的新LLM的证
据,它是GPT-4[Ope23]的早期和非多模态版本,根据1994年的定义,表现出许多智能的特征。尽管是纯粹
的语言模型,这个早期版本的GPT-4在各种领域和任务上表现出显著的能力,包括抽象、理解、视觉、编码
、数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中,我们使用纯粹的自然
语言查询(提示)与GPT-4进行互动
1
.在图1.1中,我们展示了GPT-4输出的一些初步例子,要求它以一首诗
的形式写出素数的无限性证明,用TiKZ(一种在
LATEX
中创建图形的语言)画出一只独角兽,用Python创
建一个复杂的动画,并解决一个高中水平的数学问题。
它
很容易成功地完成了所有这些任务,并产生了与人
类所能产生的结果基本上没有区别(甚至更好)的输出。我们还将GPT-4的性能与之前的LLM进行了比较,
最值得一提的是ChatGPT,它是GPT-3的微调版本(改进版)[BMR
+
20]。在图1.2中,我们展示了ChatGPT
对素数无限大的诗和TikZ独角兽图的要求结果。虽然该系统在这两个任务上的表现都不差,但与GPT-4的输
出结果相比,却没有什么区别。这些初步的观察结果将在本文中重复出现,在各种任务上都有体现。GPT-4
的能力具有普遍性,其众多能力跨越了广泛的领域,其在广泛的任务中的表现达到或超过了人类水平,这两
者的结合使我们可以说GPT-4是迈向AGI的重要一步。
1
由于GPT-4的发展在我们的实验之后继续进行,人们应该期待GPT-4的最终版本有不同的反应。
4.
特别是,所有的定量结果应被视为对模型潜力的估计,而不是确定的数字。我们在整个文件中重复了这一警告,以澄清所部
署的模型的经验可能有所不同。此外,我们强调,我们测试的版本是纯文本的输入,但为了简单起见,我们也把它称为
GPT-4
。
GPT-4
提示:你能写一个证明,证明有无限多的素数,每一
句都押韵吗?
GPT
-4
:
是的,我想我可以、
虽然这可能需要一个巧妙的计划。我首先要指
出欧几里德的证明、
这表明,素数并不只是冷漠的。假设我们有一个有限
的列表、
诸如此类的素数,而且一个都没有漏掉。将它们全部
相乘、
为了聪明起见,再加一个。结果将是一 个数字、
这没有质因数,哦,奇怪!但每个数字都有质
因数!但每个数字都有一个素数、
这就划分了,这只是一个时间问题。所以我们发现了
一个矛盾、
我们有限的名单需要被驱逐。一定有无限多的素
数,这就是我的押韵句子的结局。
提示:在
T
i
KZ
中画一个独角兽。
GPT-4: [产生LATEX编译为以下图片] 。
提示:你能为以下数据生成一个pyplot:x
= [1, 3, 5, 6, 8], y1 = [2, 3, 5, 18, 1], y2 = [3, 5, 6, 8, 1], y3 = [5, 1, 2, 3,
4],
y4 = [9, 7, 2, 3,
1]
。
我希望y1
、
y2在同一个图中,但y3在该图旁边的另一个图中,y4在下面。我希望y1的图例是
"bob",y2是 "alice",y3是 "bilbo",y4是 "allie"。我想在x轴上标明 "时间",y轴上标明
"
金钱
"
。我想在每条曲线上添
加一个10%-40%的随机误差条,贯穿所有时间(包括非整数)。我想用平滑的曲线来显示图,以及平滑的误差条
。不要
使用线性插值,要使用平滑插值
!
我还想在平滑的曲线上添加一些小的之字形,使
它看起来更真实。我想把一条基线
作为每条线的平均值。我想在下面放一个饼状图,表明每个时间步骤中四个人的比例。我还想用一个动画来显示饼
状图中的分数是如何在**连续的时间内变化的。把缺失的分数插值出来!我还希望其他三个图中的垂直线动画能与饼
状图相匹配。我想要最漂亮的图。请尽可能多地添加花哨的东西。
下面是一个可能的代码,用于生成以下数据的pyplot,并有一些注释来解释步骤:
GPT-4: [我们给出了两个由制作的代码产生的动画快照] 。
提示:假设g(x)=f
−1
(
x)
,
g(0)
=
5
,
g
(
4)
=
7
,
g(3)
=
2
,
g(7)
=
9
,
g(9)
=
6什么是
f(f(
6))?
GPT-4:有不同的方法来处理这个问题,但一个可能的方法是利用g(x)=f
−1
(x)
这一事实,这意味着对于g域中的任何
x,f(g(x))=x。也就是说,将f应用于方程g(x)=f
−1
(x)的两边,得到f(g(x))=f(f
−1
(
x))
=
x。这意味着,我们可
以通过应用g撤销
f
的影响,反过来也是如此。利用这个想法,我们可以尝试通过寻找
x
的值使g(x)
=
6来找到
f
(6)。从给定
的信息中,我们看到g(9)
=
6,所以
f
(6)
=
f
(g(9))
=
9。同样地,我们可以通过寻找
x
的值使g(x)
=
9来找到
f
(9)
。我们看到g(7)
=
9,所以
f
(9)
=
f
(g(7))
=
7。最后,我们可以通过寻找
x
的值使g(x)
=
7来找到
f
(7)。我们看到
g(4)
=
7,所以
f
(7)
=
f
(g(4))
=
4。因此,
f(f(
6))
=
f(
9))
=
f
(7)
=
4
。
图1.1:
GPT-4
在语言、视觉、编码和数学方面的
能力
的
初步例子。
剩余156页未读,继续阅读
资源评论
合肥吃货食光
- 粉丝: 7
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功