现在,OpenAI 的模型也具备解决小学数学应用题的能力
了。
简单的小学数学应用问题,对于人类来说不算什么,但对于模型来说,
可能是有难度的。
比如问题:安东尼有 50 支铅笔。他把 1/2 的铅笔给了布
兰登,剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。
问安东尼保留了多少支铅笔?
像 GPT-3 这样的大型语言模型虽然取得了许多令人印象深刻的技能,
包括模仿人的多种写作风格、20 分钟内完成论文等等。然而,类似
GPT-3 这样的模型很难执行需要进行准确多步推理的任务。就如上述
问题让模型给出准确答案还是困难的。
尽管类似 GPT-3 这样的模型可以推导出正确解决方案大致内容,但也
经常会产生严重的逻辑错误。
为了在复杂逻辑领域可以达到与人类相媲美的性能,模型必须具有判别
自身错误的能力,并谨慎地执行之后的过程。但是,模型如何判别解决