ChatGPT 是基于人类反馈的强化学习(RLHF)和大规模预训练语言模型(LLM)
结合的集成之作,通过"模仿学习+强化学习"学习范式最终表现出非常通用且强
大的自然语言处理能力,不仅可以与用户针对任意话题进行高质量的对话和闲聊,
而且可以准确地按照用户意图实现分类、问答、摘要和创作等若干应用场景的自
然语言理解与生成任务,快速形成具备基本逻辑的回答,甚至可以撰写行业报告
等。
ChatGPT 本质上是一种基于上文预测下文的大规模语言模型,主要具备问答、对
话、文档概括、文本创作等能力,有可能影响多个领域,比如基础的客服行业、
归纳性的文字工作者、动画建模师、美工师、翻译师、低级代码开发人员以及提
供基础咨询服务的行业等。可以预想,创造性较低且基于大量行业知识或训练就
可以完成的工作会受到更大的冲击。
未来 10 年是认知智能的 10 年,Al 能帮人类做的事情会越来越多,很多领域都将
存在这种代替或辅助,但在目前,大家也不用恐慌。ChatGPT 展现的语言智能只
是认知智能冰山一角,这种技术革新,目前还只是语言维度,有一定的局限性。
它还没有产生意识,更多的是帮人类做概括总结归纳,做一些知识的推理、写代
码,这是一种通用的基础能力,但想要对人类有更加深刻、全面的理解,比如复
杂的眼神、动作、表情等等,还有很长的路要走。
ChatGPT 的工作原理是利用 GPT-3.5 模型的世界知识建模、上下文学习和通用语
言生成能力,通过在人工标注的高质量对话指令数据上监督式训练对话生成模型
和对话质量评估模型,进而利用强化学习不断调优对话生成策略,实现了与人类
意图相对齐的对话生成能力。
具体而言,基于 GPT-3.5 基础模型,ChatGPT 首先通过收集的全球用户的真实问
题,在人工标注的问答和对话数据基础上作为监督数据,对 GPT-3.5 基础模型进
行微调,得到初步的 ChatGPT 模型;以此为基础,接着针对每个问题生成多个候
选答案并进行人工排序,根据排序结果训练奖励模型;之后再基于强化学习方法
利用奖励模型对 ChatGPT 模型再次进行微调,即在微调过程中让 ChatGPT 的回
复使得奖励模型的得分最高。而优化后的 ChatGPT 模型又可以重复前面的"模仿
学习+强化学习"步骤,不断优化 ChatGPT,从而得到性能最优的通用人机对话模
型。这样一来,不仅可以与用户针对任意话题进行高质量的对话和闲聊,而且可
以准确地按照用户意图实现分类、问答、摘要和创作等若干应用场景的自然语言
理解与生成任务。
- 1
- 2
前往页