从目前官方解读以及大量机构的评测来看,“超出预期”依然是这一版 GPT 给人带来的最
大体验,具体而言,多模态的引入以及推理能力的大幅提升,让 GPT 在“智能”层面有明
显跃迁。
目前,ChatGPT 的 Plus 订阅用户已经可以使用 GPT-4,其他用户需要排队申请内测。在
应用方面,微软表示,新必应搜索引擎正在运行 GPT-4.OpenAI 还在官网展示了给摩根士丹
利、多邻国、By My Eyes 等应用 GPT-4 的案例。
多模态“更上一层楼”
美东时间 3 月 14 日,OpenAI 宣布推出大型的多模态模型 GPT-4.“GPT-4 比以往任何版
本更具创造性和协作性”,并且“有更广泛的常识和解决问题的能力,可以更准确地解决难
题”。OpenAI 的 CEO Sam Altman 说:“这是我们迄今为止功能最强大的模型。”
“我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型
多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如
人类,但在各种专业和学术基准上表现出人类水平。”OpenAI 介绍道。
GPT-4 比上一个版本强在哪?OpenAI 称,虽然这两个版本在随意的谈话中看起来很相似,
但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4 更可靠、更有创意,并且
能够处理更细微的指令。
多模态的引入,让此次发布的 GPT 相较上一代综合体感明显“更上一层楼”。
OpenAI 称,GPT-4 比以往任何时候都更具创造性和协作性。它可以在创意和技术写作任
务上与用户一起生成、编辑和迭代,比如创作歌曲、编写剧本或学习用户的写作风格。
GPT-4 可接受图像作为输入,并生成字幕、分类和分析。以上图为例,输入牛奶、鸡蛋、
面粉等食材的图片,GPT-4 可以识别图片元素并输出食材用途参考。
图片笑点在哪里?GPT-4 可以按顺序描述出每一格的内容,并总结出笑点。
此外,在文本内容长度上,GPT-4 能够处理超过 25000 个单词的文本,支持长篇内容创
作、延续对话以及文档搜索和分析等应用场景。
“篇幅的拓展让 GPT 的应用场景进一步扩大。”一位互联网行业人士表示,这意味着
GPT 在 To B 端的能力进一步加强。
此外,上周,微软德国公司的首席技术官安德烈亚斯·布劳恩(Andreas Braun)在 GPT-4
的预告中强调了其多模态特征,包括视频方面的可能性。但这一点尚未在已知信息中体现。
强推理实现能力跃迁
除了引入的多模态技术外,另一个颇引人瞩目的升级,便是此次 GPT-4 所展现出的强大