OpenAI发现GPT-3解决数学题，并非参数越大越好资源-CSDN文库

共1个文件

docx：1个

需积分: 1 196 浏览量 2023-03-29 15:56:12 上传评论收藏 1.01MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

OpenAI发现GPT-3解决数学题，并非参数越大越好.zip （1个子文件）

OpenAI发现GPT-3解决数学题，并非参数越大越好.docx 1.04MB

现在，OpenAI 的模型也具备解决小学数学应用题的能力

了。

简单的小学数学应用问题，对于人类来说不算什么，但对于模型来说，

可能是有难度的。

比如问题：安东尼有 50 支铅笔。他把 1/2 的铅笔给了布

兰登，剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。

问安东尼保留了多少支铅笔？

像 GPT-3 这样的大型语言模型虽然取得了许多令人印象深刻的技能，

包括模仿人的多种写作风格、20 分钟内完成论文等等。然而，类似

GPT-3 这样的模型很难执行需要进行准确多步推理的任务。就如上述

问题让模型给出准确答案还是困难的。

尽管类似 GPT-3 这样的模型可以推导出正确解决方案大致内容，但也

经常会产生严重的逻辑错误。

为了在复杂逻辑领域可以达到与人类相媲美的性能，模型必须具有判别

自身错误的能力，并谨慎地执行之后的过程。但是，模型如何判别解决

方案是否正确，来自 OpenAI 的研究者提出了一个训练验证器

（verifier）来判断模型完成的正确性。

在测试阶段会生成许多候选解决方案并选择排名最高的一个。证明验证

（verification）显着提高了 GSM8K 的性能，此外也为这一观点（随

着数据的增加，验证比微调基线更有效）提供了强有力证据。

具体来说，该研究训练了一个解决小学数学问题的系统，其准确率约是

经过微调的 GPT-3 模型的两倍。它能像真正的学生一样可以解决 90%

的数学应用问题：在提供的数据集中进行了小样本测试，结果表明 9-12

岁的学生测试得分为 60%，该研究所提系统在相同的问题上测试得分

55%。

这一结果非常重要，因为今天的 AI 在常识性多步推理方面仍然很弱，

即使对小学生来说也很容易，但 AI 还是存在很大的缺陷。该研究通过

训练模型来识别其错误，以便它可以反复试错，直到找到可行的解决方

案。

下面展示了该研究所提新方法生成的解决方案其中一个案例：

Tim 种了 5 棵树。他每年从每棵树上收集 6 个柠檬。他

十年能得到多少柠檬？

175B Verification：正确

175B Fine-tuning：错误

6B Verification：正确

6B Fine-tuning：正确

内容反馈

a_juvenile

粉丝: 31
资源: 854

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip