没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
本篇文章,我们一起来了解一下 ChatGPT 背后的技术原理。
GPT-3 有什么问题?
既然 ChatGPT 是由 GPT-3 迭代过来的,那么原有的 GPT-3 究竟有
哪些问题?ChatGPT 又是如何做的改进?
如果你明白了上面两个问题,那么 ChatGPT 的核心你就算真正掌握
了。
GPT-3 最大的问题就是训练目标和用户意图不一致。也就是 GPT-3
并没有真正拟合用户真实的问题(prompt)。
GPT-3 本质上是语言模型,优化目标也是标准语言模型的目标,即最
大化下一个词出现的概率。GPT-3 的核心技术是 Next-token-prediction
和 Masked-language-modeling。
在第一种方法中,模型被给定一个词序列作为输入,并被要求预测序
列中的下一个词。如果为模型提供输入句子:
“
猫坐在
”
它可能会将下一个单词预测为「垫子」、「椅子」或「地板」,因为
在前面的上下文中,这些单词出现的概率很高。
Masked-language-modeling 方法是 Next-token-prediction 的变体,其
中输入句子中的一些词被替换为特殊 token,例如 [MASK]。然后,模
型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句
子:
“The [MASK] sat on the ”
它可能会预测 MASK 位置应该填的词是「cat」、「dog」。
这些目标函数的优点之一是,它允许模型学习语言的统计结构,例如
常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅
的文本,并且是每个语言模型预训练阶段的重要步骤。
然而这些目标函数也可能导致问题,这主要是因为模型无法区分重要
错误和不重要错误。一个非常简单的例子是,如果给模型输入句子:
"罗马帝国[MASK]奥古斯都的统治"
剩余15页未读,继续阅读
资源评论
福尔摩星儿
- 粉丝: 0
- 资源: 229
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- nyakumi-lewd-snack-3-4k_720p.7z.002
- 现在微信小程序能用的mqtt.min.js
- 基于MPC的非线性摆锤系统轨迹跟踪控制matlab仿真,包括程序中文注释,仿真操作步骤
- 基于MATLAB的ITS信道模型数值模拟仿真,包括程序中文注释,仿真操作步骤
- 基于Java、JavaScript、CSS的电子产品商城设计与实现源码
- 基于Vue 2的zjc项目设计源码,适用于赶项目需求
- 基于跨语言统一的C++头文件设计源码开发方案
- 基于MindSpore 1.3的T-GCNTemporal Graph Convolutional Network设计源码
- 基于Java的贝塞尔曲线绘制酷炫轮廓背景设计源码
- 基于Vue框架的Oracle数据库实训大作业设计与实现源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功