多模态是 AI 真正全面渗透各行各业的必经之路,也是通用人工智能实现的关键。
GPT-4 的最大突破就在于支持多模态,可以输入图片和文本,允许用户指定任何
视觉或语言任务。在一系列类型的输入上(包括包含文本和照片的文档、图表或
屏幕截图)上,GPT-4 都有优秀表现。
GPT 提供通用、逻辑与智能,模型微调与多模态构成万物互联基础。
提供通用、逻辑与智能,模型微调与多模态构成万物互联基础。
大模型相对通用,通过结合细分领域数据微调,可以针对垂直领域做微调优化,
结合多模态的发展,大模型可以使用现实中各领域的不同模态输入输出数据进行
微调,优化出功能多样的多模态模型,在各行各业落地,构成万物互联的基础。
应用节奏展望:现阶段主要用于搜索及聊天机器人,1-5 年内简单多模态应用,
5-10 年内用于复杂问题决策。
多模态 GPT 落地应用速度将会很快,国内有望复现类似模型并快速在细分场景
使用。
现阶段,大模型主要用于搜索、航程辅助、聊天机器人变种(猎头使用软件、智
能客服,智能音箱、游戏 NPC 等);1-5 年内,会用于 Office 类工具,简单多
模态方案(智能家居、工业视觉、行业化机器人)、行业专家(医疗、教育
等)、智能助理(即时、工作安排、点外卖、购物等);5-10 年内,会用于复杂
多模态方案(通用机器人、虚拟现实)等。
01
GPT-4
介绍
3 月 14 日,OpenAI 发布的 GPT-4,是一个大型多模态模型,在各种专业和学
术基准上表现出人类水平的表现。
例如,它通过了模拟律师考试,分数约为考生的前 10%,相比之下,GPT-3.5 的
得分约为倒数 10%。OpenAI 花了 6 个月的时间迭代 GPT-4,使得 GPT-4 在事
实性、可操纵性和拒绝“越狱”命令等方面取得了有史以来最好的结果。OpenAI
还开源了他们的 AI 模型性能自动评估框架 OpenAIEvals。
GPT-4 的主要进步有以下几方面:
GPT-4 支持多模态
给定由穿插文本和图像组成的输入,GPT-4 生成文本输出(自然语言、代码
等)。