【免费】ChatGPT工作原理分析.zip资源-CSDN文库

共1个文件

doc：1个

人工智能

需积分: 0 28 浏览量 2023-06-07 23:21:21 上传评论收藏 519KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

ChatGPT工作原理分析.zip （1个子文件）

ChatGPT工作原理分析.doc 607KB

ChatGPT 工作原理分析

自 ChatGPT 发布以来，已经吸引了无数人一探究竟。但 ChatGPT 实际

上是如何工作的？尽管它内部实现的细节尚未公布，我们却可以从最近

的研究中一窥它的基本原理。

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。

与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，

并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了

OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT，其中的强化学

习组件使 ChatGPT 独一无二。OpenAI 使用了「人类反馈强化学习」

（RLHF）的训练方法，该方法在训练中使用人类反馈，以最小化无益、

失真或偏见的输出。

本文将剖析 GPT-3 的局限性及其从训练过程中产生的原因，同时将解释

RLHF 的原理和理解 ChatGPT 如何使用 RLHF 来克服 GPT-3 存在的问题，

最后将探讨这种方法的局限性。

一、大型语言模型中的能力与一致性

「一致性 vs 能力」可以被认为是「准确性 vs 精确性」的更抽象的类

比。

在机器学习中，模型的能力是指模型执行特定任务或一组任务的能力。

模型的能力通常通过它能够优化其目标函数的程度来评估。例如，用来

预测股票市场价格的模型可能有一个衡量模型预测准确性的目标函数。

如果该模型能够准确预测股票价格随时间的变化，则认为该模型具有很

高的执行能力。

一致性关注的是实际希望模型做什么，而不是它被训练做什么。它提出

的问题是「目标函数是否符合预期」，根据的是模型目标和行为在多大

程度上符合人类的期望。假设要训练一个鸟类分类器，将鸟分类为「麻

雀」或「知更鸟」，使用对数损失作为训练目标，而最终目标是很高的

分类精度。该模型可能具有较低的对数损失，即该模型的能力较强，但

在测试集上的精度较差，这就是一个不一致的例子，模型能够优化训练

目标，但与最终目标不一致。

原始的 GPT-3 就是非一致模型。类似 GPT-3 的大型语言模型都是基于

来自互联网的大量文本数据进行训练，能够生成类似人类的文本，但它

们可能并不总是产生符合人类期望的输出。事实上，它们的目标函数是

词序列上的概率分布，用来预测序列中的下一个单词是什么。

但在实际应用中，这些模型的目的是执行某种形式的有价值的认知工作，

并且这些模型的训练方式与期望使用它们的方式之间存在明显的差异。

尽管从数学上讲，机器计算词序列的统计分布可能是建模语言的高效选

择，但人类其实是通过选择最适合给定情境的文本序列来生成语言，并

使用已知的背景知识和常识来辅助这一过程。当语言模型用于需要高度

信任或可靠性的应用程序（如对话系统或智能个人助理）时，这可能是

一个问题。

尽管这些基于大量数据训练的大模型在过去几年中变得极为强大，但当

用于实际以帮助人们生活更轻松时，它们往往无法发挥潜力。大型语言

模型中的一致性问题通常表现为：

提供无效帮助：没有遵循用户的明确指示。

内容胡编乱造：虚构不存在或错误事实的模型。

缺乏可解释性：人们很难理解模型是如何得出特定决策或预测的。

内容偏见有害：一个基于有偏见、有害数据训练的语言模型可能会在其

输出中出现这种情况，即使它没有明确指示这样做。

但具体来说，一致性问题源自何处？语言模型的训练方式本身就容易产

生不一致吗？

二、语言模型训练策略如何产生不一致？

Next-token-prediction 和 masked-language-modeling 是用于训练语

言模型的核心技术。在第一种方法中，模型被给定一个词序列作为输入，

并被要求预测序列中的下一个词。如果为模型提供输入句子：

“The cat sat on the”

它可能会将下一个单词预测为「mat」、「chair」或「floor」，因为

在前面的上下文中，这些单词出现的概率很高；语言模型实际上能够评

估给定先前序列的每个可能词的可能性。

masked-language-modeling 方法是 Next-token-prediction 的变体，

其中输入句子中的一些词被替换为特殊 token，例如 [MASK]。然后，模

型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子：

“The [MASK] sat on the ”

它可能会预测 MASK 位置应该填的词是「cat」、「dog」。

这些目标函数的优点之一是，它允许模型学习语言的统计结构，例如常

见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文

本，并且是每个语言模型预训练阶段的重要步骤。

然而这些目标函数也可能导致问题，这主要是因为模型无法区分重要错

误和不重要错误。一个非常简单的例子是，如果给模型输入句子：

"The Roman Empire [MASK] with the reign of Augustus."

它可能会预测 MASK 位置应该填入「began」或「ended」，因为这两个

词的出现概率都很高。

一般来说，这些训练策略可能会导致语言模型在一些更复杂的任务中出

现不一致，因为一个仅被训练来预测文本序列中的下一个词的模型可能

不一定会学习其含义的某些更高级表征。因此，该模型很难推广到需要

对语言更深入理解的任务。

研究人员正研究各种方法来解决大型语言模型中的一致性问题。

ChatGPT 基于最初的 GPT-3 模型，但为了解决模型的不一致问题，使用

了人类反馈来指导学习过程，对其进行了进一步训练。所使用的具体技

术就是前面提到的 RLHF。ChatGPT 是第一个将此技术用于实际场景的模

型。

评论收藏

内容反馈

苹果牛顿吃

粉丝: 19
资源: 2791

ChatGPT工作原理分析.zip

ChatGPT的原理分析.zip

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

第十九届研电赛-技术论文模板

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

学术海报模板+论文科研+研究生

农村公交与异构无人机协同配送优化

北森能力测评题库.zip

车载毫米波雷达DOA估计综述博文仿真代码

ST-LINK Utility 4.6.0

认知智能技术与产业研究报告2023

2023泛娱乐社交出海手册-ZEGO即构科技

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

1000份ppt模版，PPT模板优秀PPT

由于找不到iUtils.dll,无法继续执行代码

249个 ChatGPT 关键词汇总 中文版

ST语言规则编程手册全面讲解ST语言

GJB 3206B-2022 《技术状态管理》

高项第四版十大管理、49个过程、五大过程组【趣味联想记忆口诀，助你一篇牢牢记住！】

chrome-win64.zip

【R213】The Worlds I See 我看见的世界【Fei-Fei_Li 李飞飞】.pdf

用拉伸法测量金属丝的杨氏模量实验报告

卸载软件最最最彻底的工具

Infiniband Specification Vol 1-Release-1.4

最新资源

李飞飞自传我看见的世界 The World I see

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

249个 ChatGPT 关键词汇总中文版