没有合适的资源?快使用搜索试试~ 我知道了~
chatgpt原理.docx
0 下载量 132 浏览量
2023-04-21
17:23:38
上传
评论
收藏 404KB DOCX 举报
温馨提示
试读
18页
ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI [1] 研发的聊天机器人程序 [12] ,于2022年11月30日发布 [2-3] 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文 [21] 等任务。 [2] 2023年4月,中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。 [42] 2023年4月12日,此前临时禁止使用ChatGPT的意大利开出了解禁的条件,但13日,西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。同日,欧洲数据保护委员会宣布成立专门工作组,以促进各国协同调查,并就各数据保护部可能采取的执法措施交流信息 [45] 。
资源推荐
资源详情
资源评论
自 ChatGPT 发布以来,已经吸引了无数人一探究竟。但
ChatGPT 实际上是如何工作的?尽管它内部实现的细节尚
未公布,我们却可以从最近的研究中一窥它的基本原理。
ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著
提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的
生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。
它代表了 OpenAI 最新一代的大型语言模型,并且在设计上非常注重
交互性。
OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT,其中的强
化学习组件使 ChatGPT 独一无二。OpenAI 使用了「人类反馈强化学
习」(RLHF)的训练方法,该方法在训练中使用人类反馈,以最小化
无益、失真或偏见的输出。
本文将剖析 GPT-3 的局限性及其从训练过程中产生的原因,同时将解
释 RLHF 的原理和理解 ChatGPT 如何使用 RLHF 来克服 GPT-3
存在的问题,最后将探讨这种方法的局限性。
大型语言模型中的能力与一致性
「一致性 vs 能力」可以被认为是「准确性 vs 精确性」的更抽象的类
比。
在机器学习中,模型的能力是指模型执行特定任务或一组任务的能力。
模型的能力通常通过它能够优化其目标函数的程度来评估。例如,用来
预测股票市场价格的模型可能有一个衡量模型预测准确性的目标函数。
如果该模型能够准确预测股票价格随时间的变化,则认为该模型具有很
高的执行能力。
一致性关注的是实际希望模型做什么,而不是它被训练做什么。它提出
的问题是「目标函数是否符合预期」,根据的是模型目标和行为在多大
程度上符合人类的期望。假设要训练一个鸟类分类器,将鸟分类为「麻
雀」或「知更鸟」,使用对数损失作为训练目标,而最终目标是很高的
分类精度。该模型可能具有较低的对数损失,即该模型的能力较强,但
在测试集上的精度较差,这就是一个不一致的例子,模型能够优化训练
目标,但与最终目标不一致。
原始的 GPT-3 就是非一致模型。类似 GPT-3 的大型语言模型都是基
于来自互联网的大量文本数据进行训练,能够生成类似人类的文本,但
它们可能并不总是产生符合人类期望的输出。事实上,它们的目标函数
是词序列上的概率分布,用来预测序列中的下一个单词是什么。
但在实际应用中,这些模型的目的是执行某种形式的有价值的认知工作,
并且这些模型的训练方式与期望使用它们的方式之间存在明显的差异。
尽管从数学上讲,机器计算词序列的统计分布可能是建模语言的高效选
择,但人类其实是通过选择最适合给定情境的文本序列来生成语言,并
使用已知的背景知识和常识来辅助这一过程。当语言模型用于需要高度
信任或可靠性的应用程序(如对话系统或智能个人助理)时,这可能是
一个问题。
尽管这些基于大量数据训练的大模型在过去几年中变得极为强大,但当
用于实际以帮助人们生活更轻松时,它们往往无法发挥潜力。大型语言
模型中的一致性问题通常表现为:
�
提供无效帮助:没有遵循用户的明确指示。
�
�
内容胡编乱造:虚构不存在或错误事实的模型。
�
�
缺乏可解释性:人们很难理解模型是如何得出特定决策或预测的。
�
�
内容偏见有害:一个基于有偏见、有害数据训练的语言模型可能会在其
输出中出现这种情况,即使它没有明确指示这样做。
�
但具体来说,一致性问题源自何处?语言模型的训练方式本身就容易产
生不一致吗?
语言模型训练策略如何产生不一致?
Next-token-prediction 和 masked-language-modeling 是用于训练语
言模型的核心技术。在第一种方法中,模型被给定一个词序列作为输入,
并被要求预测序列中的下一个词。如果为模型提供输入句子:
“The cat sat on the”
它可能会将下一个单词预测为「mat」、「chair」或「floor」,因为在
前面的上下文中,这些单词出现的概率很高;语言模型实际上能够评估
给定先前序列的每个可能词的可能性。
剩余17页未读,继续阅读
资源评论
Java毕设王
- 粉丝: 7101
- 资源: 1083
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功