自然语言处理(NLP)的最新进展导致了强大的语言模型的发展,如 GPT(生成
式预训练 Transformer)系列[1,2,3,4,5],包括 ChatGPT 和 GPT-4 等大型语言
模型(LLM)。这些模型在大量的文本数据上进行了预训练,并在广泛的 NLP
任务中表现出了卓越的性能,包括语言翻译、文本摘要和问答。特别是
ChatGPT 模型已经展示了其在各个领域的潜力,包括教育、医疗保健、推理、
文本生成、人机交互和科学研究。
LLM 开发的一个关键里程碑是 InstructGPT[5],该框架允许基于来自人类
反馈的强化学习(RLHF)对预训练语言模型进行指令微调[6,5]。该框架使 LLM
能够适应广泛的 NLP 任务,通过利用人类反馈使其具有高度通用性和灵活性。
RLHF 使模型能够与人类的偏好和人类的价值观保持一致,通过无监督的预训
练,这从仅训练文本语料库的大型语言模型中得到了显著改善。ChatGPT 是
InstructGPT 的继承者。自 2022 年 12 月发布以来,ChatGPT 已经配备了这些
先进的开发,在推理和广义文本生成等各种下游 NLP 任务中取得