没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论


















OpenAI 闭门讨论会 V3【GPT-4】纪要

Q1:GPT-4 之后,如何看模型能力演变和边界
GPT4 升级、能力提升影响很大,因为通用能力变强,去年夏天爆火的 AIGC 应
用如 Jasper.ai, copy.ai 受到很大的挑战。类似当年 iPhone 升级,把应用商店中
基础的安全等应用从 code 层面淹没掉了。
讨论
GPT4
有哪些新技术、新能力,从创业做应用、算力、
Infra
、研究等角度
展开;以及从中短期长期,怎么去想大语言模型的演变方向。
A:
1) GPT4 的市场预期
类比 iPhone,Code、系统、基础工具能力层面都是能做,但是做不了 Facebook
网络,Uber 打车/管车,airbnb 等重业务,所以创业要考虑垂直领域。但是它生
成能力很强,未来可能更强,GPT4 推理能力变强,并且加上眼睛,可以读基
础的图片、做总结。未来多模态升级会有更多的能力。OpenAI 内部的人对于未
来的升级预期非常 aggressive,所以应用创业可能不适合长期价值投资,很多应
用的生命周期会很短。
2) GPT4 出来后的新想法:
加了图像能力之后,
GPT4
拥有视觉信息,一定程度上可以更像人;可以考虑
更复杂的事情,比如控制机器人,实现类似
adept
的自动机制。
Model 层面有更多的改变,Infra 存在挑战:

OpenAI
训练了一个更大的模型:
175B
的语言模型,加
2B
或者
20B
的视觉模
型分支。这意味之前的框架训不动了,国内本身只能用
40G
的
A100
,现在要
在
40G
的
A100
的前提下负载更多的参数,国内受到更大的挑战。
研究方向:
国内一直在说要做自己的大模型,但
OpenAI
说,
language model
是第一阶段,
甚至可能是很小的阶段,只是后面的基础而已。国内需要想清楚自己要做什么,
是多模态模型,还是之后会出现更复杂的模型,这会带来实际执行和心理上的
改变。
GPT4
出来之后,大家会感觉我们大概率短期是追不上的。因为算力、多模态
研究都很困难。更务实的做法是模型和应用一起做。
3) 计算 GPT4 有多少参数,可以估计一下他们有多少张卡,算出它
训一年的 Tflops,从得到的 Tflops 可以倒推模型有多大,数据
有多少。如果这样算的话,它应该要比 175B 大很多,数据和模
型都会大很多。
TFLOPS 是 floating point operations per second (每秒所执行的浮点运算次数) 的英文缩
写。它是衡量一个电脑计算能力的标准。
4) H100 出来后,OpenAI 用几万张 H100 训模型,模型的能力会有
多大的提升?和 Anthropic 和 Cohere 会拉开多大差距?想象边

界在哪?
和其他对手的比较:
从 POE 可以体验,Anthropic 的 claude+ 和 GPT4 并没有差很远,只是 Anthropic
从不宣传。
目前 GPT-4 的变强的能力很多都能预期到。算力拉满后,多模态的涌现能力会
加强,GPT-4 的 vision + Language 会有预料之外的涌现能力,之后加上 video
会有更多。因为很多题目是需要眼睛 + 语言才能解答,比如解析几何。
GPT-5 的能力是否会远超 GPT4 要考虑 Alignment text,公开的 GPT-4 是清光了
Align 之后的模型,alignment 本身就会让模型的能力下降,在 GPT4 之前的
GPT4 Early 表现的能力要强一截,所以不用担心能力不上去。现在能观察到的
能力只会使你低估它,不会高估它。
5) 能力视角,GPT 会淹没掉哪些公司?围绕 OpenAI 做的应用会
不会被淹没 90%,基础能力(理解、推理、生成)最后是不是
都基于 OpenAI 本身?做应用的点在哪里?
可以以超过人类中的最强者为分界线。
当模型在某方面的能力超过人类最强,游戏规则会改变。超过人类最强并不是
无法达到的目标,
AI
超过人类最强是有先例的, 如
Alphago
和
Alphago zero
。
没有人可以阻止
OpenAI
像训练
Alphago zero
那样训练
GPT
。

OpenAI 模型本身变强,一定会有很多已有的 APP 受到影响。
比如
Langchain
把很多模型和外部的东西接在一起,但
Microsoft 365
发布之后,
Microsoft
就把这件事情做了,
Langchain
就很大程度失去了存在的意义。
第一波 OpenAI 踩中了 local optimal,有了简单的对话能力,第二波会不会
OpenAI 出来几个人把模型 reproduce,说明技术壁垒不是那么高。因为 machine
learning 训练的参数不会特别多,不是特别复杂的系统工程,这样给其他竞争者
不会有太多的希望。
OpenAI 技术博客里讲,内部有一个非常 Scalable 的训练框架,使它有
predictable scaling 的能力,参数加到多少,训练能够无缝完成是很重要的。因
为使用数据训练模型需要人为干预,很难自动完成。有很多的细节,比如有可
能梯度爆炸,或者 Loss 跑丢了,这时候就需要人为 roll back,把中间的脏训练
数据踢掉。所以无缝的自动训练需要很强的认知框架及训练系统。
OpenAI 这次将组织架构公布,告诉大家不是只有一个模型训练组,而是很多组,
每个组都有明确分工。有极强的壁垒,短时间很难超过。
Reid Hoffman 公开表示自己去年 8 月的时候就拿到了 GPT-4,原始版本能力更
强,这大半年的时间其实是在解决风险。公开 GPT-4 是一个很大的系统工程,
能力越强、风险和挑战越大,要避免大家用 GPT-4 作恶,比如教人们制造炸弹,
搞破坏等。从这个层面看,OpenAI 领先其他竞争对手很多身位,包括 Google。
6) 从 GPT-3 到 GPT-4 能力的暴涨,从算法、算力、数据三要素来
分析:
剩余44页未读,继续阅读
资源评论


地理探险家
- 粉丝: 537
- 资源: 4078
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
