ChatGPT 原理解析
在 ChatGPT 发布之初,我同许多 AI 从业者一样对这
个被媒体号称要取代搜索引擎的聊天机器人产品是持
怀疑态度的,但在深度体验之后,发现 ChatGPT 跟
以往昙花一现的产品并不一样,它对于回答成熟的知
识确实已经大有替代搜索引擎的能力,而其对上下文
层层递进的连续交互能力简直颠覆了人们对大语言模
型能力的想象。
尽管 OpenAI 没有公布 ChatGPT 的论文和相关的训
练和技术细节,但我们可以从其兄弟模型
InstructGPT 以及网络上公开的碎片化的情报中寻找
到实现 ChatGPT 的蛛丝马迹。根据 OpenAI 所言,
ChatGPT 相对于 InstructGPT 的主要改进在于收集
标注数据的方法上,而整个训练过程没有什么区别,
因此,可以推测 ChatGPT 的训练过程应该与
InstructGPT 的类似,大体上可分为 3 步:
1.预训练一个超大的语言模型;
2.收集人工打分数据,训练一个奖励模型;