没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
27页
这是一份3月5日OpenAI闭门会的纪要,讨论下以下20个问题。 Q1:OpenAI 接下来会有哪些动作? Q2:ChatGPT 被广泛应用之后输入的数据是否会对模型的走向有影响? Q3:OpenAI 现在用了多少算力,之后会需要多少算力? Q4:数据方向的新应用场景。 Q5:OpenAI 的开源与制衡问题。 Q6:通用和垂直哪个更有盈利能力? Q7:哪些垂直领域有创业机会? Q8:垂直领域如金融/医疗如何做? Q9:目前软件公司有哪些经营模式? Q10:ChatGPT 对于垂直应用层有哪些影响?如何节省下大模型训练的成本? Q11:垂直领域的数据如何处理? Q12:应用领域二分法。 Q13:数字化发展的不同商业模式。 Q14:从哪些维度能有效评估大模型?OpenAI 内部的评估手段? Q15:OpenAI infra 搭建过程中有哪些关键点、milestone 、难点、重要性都是什么? Q16:大模型的数据处理质量如何保障?OpenAI 团队内部怎么做的? Q17:OpenAI 闭源模型和 Stability 开源模型的未来发展路径。 Q18:Q19:Q20:……
资源推荐
资源详情
资源评论
本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅
供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
OpenAI
闭门讨论会纪要
V2
Date
:
2023 - 03 - 05
Q1
:
OpenAI
接下来会有哪些动作?
A:
1)
和微软更加深入一体化的合作
;包括 office、teams、云、Surface(消费级
终端)加入 AI 功能;以及推出新的 ToB / 消费级的产品;
2) 可能会和更多的企业达成战略关系。目前已经贝恩等企业合作;
3) 安全性提到最高优先级。强调 Safety 而不是 Security;
4) OpenAI 是否会自己做消费级的终端;
5) ChatGPT 如何避免回答错误?ChatGPT 会一本正经的胡说八道,但 ToC 应
用对于错误的容忍率很低,之后可能通过增加一层 validation,加入更好的
知识库,对答案进行控制。
6)
对于大模型的探索:
l 多模态进展、GPT4 不久就会发布。在训练多模态数据之后,参数量到
达多少会涌现更多的能力?
l OpenAI 的模型会不会有新的方向?目前 LLM/Auto regresion 是不是真
正好的方向?现在应该还在尝试不同的基础路径;
l 多模态模型应用于生成设计:重点可能不在于准确度,对于精确度要求
不高于 95% 的内容都可以用 AI 生成,如图片、视频、宣传广告、3D
设计;另外,人类单次思考时间低于 3 秒钟内容都可以被 AI 替代。
本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅
供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
7) OpenAI
是否会在
AGI
有重大作用的领域有更多的投入
,比如自动驾驶、
机器人。
l 如果 OpenAI 不提前部署相关场景,会较为被动。目前已经有相关基础,
如虚拟环境,但是中间暂停了,或许未来会重新启动。OpenAI 和 Tesla
擎天柱机器人最后可能殊途同归;
l 应该不会马上做机器人,Reinforce learning + 仿真这条路径已经被否定
了;
l 多模态方向,目前视频、语音放在一起效果并不好。可能未来还是会一
层层的向上加数据,最终实现多模态。
8) OpenAI
现在和未来都会花很大精力研究数学问题,目的是加速模型推理。
l OpenAI 模型逻辑性非常强的原因之一是同时训练文本和代码,训练的
节奏和来回穿插并没有公开。多模态把时序数据变成序列数据,如果把
数学变成一个序列可以极大的增强推理水平,是 OpenAI 重点关注的点;
l 大模型虽然在基础数学领域没有优势,但是在 PDE 和偏微方程有很大
优势,比如 Deepmind 的大模型可以做可控核聚变(但是和大模型是两
条技术路径)。
9)
未来可穿戴设备
+ SaaS + GPT
是否会有更多的想象空间?
l 大语言模型使得交互方式变化、对人的行为活动采集的颗粒度会变得非
常细致,所以围绕数据流会发生更大的变化,这部分是很期待的部分;
l 但可穿戴的消费级设备还会涉及到怎么做产品化,所以需要一个很天才
的产品经理;
l Adept 的产品就是用自然语言去控制 SaaS。但是该技术很难,类似 L3
级别的自动驾驶,现在可以做到 80% 的时间是对的,但还有 20% 需要
本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅
供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
人去进行干预(一些复杂场景下,例如给出的 Prompt 不够精确的时候)。
类似的公司有 Inflection。
10)
现阶段人和
GPT
交互所能得出的答案
/
反馈,和
Prompt
也有很大关系在,
现阶段
目前有的两派人在做:
l 其一是围绕 GPT 优化垂直场景的 prompt,OpenAI 后续也可能自己做这
件事;
l 其二是围绕 prompt 做坏事,挑战 gpt 下限,叫做 DAN(Do Anything
No),类似互联网时代的病毒,所以 OpenAI 后续需要给系统打补丁,
大量投入 alignment。
Q2
:
ChatGPT
被广泛应用之后输入的数据是否会对模型的走向有
影响?
A:
l
有影响,
目前模型也用了 2021 年之后的数据,但是不全面,大部分是 2021
年之前,但 2021 年之后也使用了,只不过不是那么完全;
l OpenAI 的模型是一直在更新的,目前 OpenAI 的 API 开放了两个接口,一
个是 Turbo,一个是 Turbo 0301,Turbo 0301 会一直更新,用更新的数据做
pre-training,以及用大家给出的更好的 prompt。
l Instruct GPT 是之于 GPT 更好的升级,它就是通过收集、学习更多人的人的
输入来学习人类输入 prompt 的大致类型,从而实现更好的结果输出:
Ø 之前的模型只是用海量的文本训练,但并没有和人类的意识 Align,并
不是一个“人类给出指令,模型就能够帮助人来做”的交互;
Ø Instruct GPT
很重要的是做到了接收到人类想用模型做的事情的分布
本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅
供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
(输入的内容)是什么样的。这些需要和公众去采集,结果上来看包
括三类:生成,
brainstorming
,以及
Open Q&A
。
l 采集和使用的数据必须是经过同意的,美国的意识形态强调政治正确,所
以 Harmless 非常重要,不能产生不良影响。
Q3
:
OpenAI
现在用了多少算力,之后会需要多少算力?
A
:
1) 听说 OpenAI 花了微软一半的算力,2.8 万张 A100。去年花费了 4-5 亿美元,
今年预期要亏损 20 多亿美元。
2) 在有隐私限制及其他不能用 OpenAI API 的场景,底层算力大型的提升非常
重要。像 SambaNova(snorkel AI 的兄弟公司) 做的事情就是帮助不能用 API
的公司独立做自己大模型。使用的技术是类脑计算(Neuromorphic
Computing)。
SambaNova
:
美国 AI 芯片独角兽,其最重磅的软硬件集成平台 SambaNova DataScale,
拥有 TB 级内存容量和数百 PetaFLOPS 低延迟互连计算能力,能处理大量复杂的数据模
型。
Q4
:数据方向的新应用场景
A:
1) OpenAI/Snorkel AI 将数据 signal 整合到一起,获得训练数据集。OpenAI 在
本报告内容仅作为与报告接受者商业沟通之用途,双方需对本报告内容严格保密,不得外泄或用作商业用途。本报告的内容仅
供报告接收方参考,不构成任何投资建议,亦不构成拾象团队对于报告内容的任何要约或承诺。
Scale.ai 只花了几十万,所以肯定有很多自己的数据标注方式。Snorkel AI/
开源的 LLM,如 Human loop,都在数据方向做创新;
2) 垂直领域如果最后有自己的大模型,利用自己的数据形成闭环,实现数据
迭代,那么
互联网的优质语料库或许会成为限制
;
3) 如果 2025、26 年,大模型已经用完了人类的高质量数据要怎么办?人类生
成数据的速度是否会跟不上大模型训练数据的速度?
4) 可能要看多模态的数据,或者是 AI 生成数据。还需要考虑 AI 生成的数据
能否满足基础模型对于数据质量的需求,以及怎么去评估数据的好坏或者
可解释性;
5) 未来应该会产生更大体量的数据,计算机对人类行为的理解可能会更深入,
变成质量更高的数据。
Q5
:
OpenAI
的开源与制衡问题
1) OpenAI
将如何在垂直领域给提供更公开的环境,赋能垂直领域的应用。
虽
然 OpenAI 开源了 ChatGPT 的 API,比 GPT3 便宜 10 倍,但不支持垂直领
域的 Fine-tune。大家只能做 prompt engineering,但长期来看,公司数据积
累的效率很低。当然,并不是所有的垂直领域都值得做。
2) OpenAI
的开源精神未来会如何演变。
OpenAI 的研究内容目前并不完全可
见,虽然发布了 blog 和论文,但是并不能成功重现,各大公司重现的
GPT3 效果都不如直接调 OpenAI 的 API。
3)
隐私安全问题如何解决。
微软和 GPT 相结合之后,能否有相应措施解决这
个问题?
下一步
OpenAI
是否能用更少的人类标注达到更好的效果,使得
模型性能更好复制,实现大规模应用
。OpenAI 重视民主化,所以在
剩余26页未读,继续阅读
资源评论
ShowMeAI
- 粉丝: 5834
- 资源: 42
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功