距很大,并且是全方位的差距。ChatGPT 在 GPT-4 面前就是“小学生”对“大学生”
一般的差距。
先看一些官方的测试结果,再给一些自己测的典型用例。
在本文介绍的所有测试中,ChatGPT 都明显弱于 GPT-4。
官方测试所涉及的能力:
� 视觉能力
� 代码能力
� 数学计算能力
� 工具使用能力
� 与人的交互能力
� 人类专业考试的能力
自己测的一些能力:
� 作为推荐算法的能力
� 实体抽取的能力
1. 微软的测试结果
这部分测试结果来自于微软针对 GPT-4 的研究论文《Sparks of Artificial General
Intelligence: Early experiments with GPT-4 》。这篇论文测的是 GPT-4 的一个早期
版本,它在训练阶段仍只用了文本数据,没有图像。所以从训练数据的类型来看,
它和 ChatGPT 是一致的。
1.1 视觉能力
GPT-4 的一个强大能力是它从纯文本中产生了视觉概念,但 ChatGPT 没有这种能
力。
第一个测试方法是让模型用 SVG(一种简易的图像格式)生成“汽车”、“卡车”、“猫”
和“狗”。GPT-4 和 ChatGPT 生成的图像如图 1 和图 2 所示。