前言
GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,
顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。
目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布
的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型,是在
GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训
练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习
(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的
仅仅是采集数据的方式上有所差异。所以要搞懂ChatGPT,我们必须要先读懂InstructGPT。
1. 背景知识
在介绍ChatGPT/InstructGPT之前,我们先介绍它们依赖的基础算法。
1.1 GPT系列
基于文本预训练的GPT-1[2],GPT-2[3],GPT-3[4]三代模型都是采用的以Transformer为核心结
构的模型(图1),不同的是模型的层数和词向量长度等超参,它们具体的内容如表1。