GPT-5 七大震撼能力首次揭秘
完全颠覆影视行业、为机器人提供智慧大脑、人工智能模型自主开发、构建虚拟
世界预测未来结果、接入手机等电子设备创建个人智能生态…….
虽然 GPT-5 在官网写的 Q4 左右会对外正式发布,但根据微软项目有关朋友的信
息预测,最早今年 6-7 月就会有 GPT-5 的功能陆续放出来。
GPT-4 发布后,全球对于 OpenAI 的关注度持续提升。OpenAI 在 GPT-4 之前花
费 8 个月时间进行安全研究、风险评估和迭代。也就是说,OpenAI 在去年年
底推出 ChatGPT 的时候,已经有了 GPT-4。
一个国外博主 AI Explained 认为 GPT-5 的训练时间不会很久,甚至他认为
GPT-5 已经可能训练完成。
笔者认为,未来的 GPT-5 将会成为人工智能技术中的重要突破,它可能会带来
一些具有变革性的能力,经过一些内部调研,以下是七项 GPT-5 最具变革性的
能力。
1
音频和视频处理——
更强大的多模态处理能力
GPT-5 比 GPT-4 更加强大的数据理解能力,可以在多模态理解方面表现更出色。
它将延续 GPT-4 的文本和图像处理功能,同时加入音频和视频的处理服务,从
而能够准确地分析各种材料,生成连贯的上下文,翻译多种文本以及总结摘要。
这将改变我们与内容的交互和消费方式,并且能够横跨各种媒体格式。
多模态模型在图像方面和类似 Stable Diffusion 等的图像模型间最大的区别
就是其可以理解图像的内容而不是将图像变成一个个简单的标签。
从 OpenAI 的论文来看,GPT-4 已经能够理解图像中的逻辑和其中的幽默感(比
如 VGA 接口插入手机为什么好笑)。当前 GPT-4 的多模态能力仅限于图片处理
能力,而 GPT-5 的视频处理能力则会将多模态的能力提升到可能接近人类的程
度。
可以试想一下,如果未来只需要对着 GPT-5 输入一个有趣的 meme,一张不甚
明确的概念图,再加上可能存在的联网能力,GPT-5 就会根据时下最流行的内