没有合适的资源?快使用搜索试试~ 我知道了~
由浅入深解析ChatGPT的技术原理
需积分: 0 7 下载量 104 浏览量
2023-05-14
20:53:35
上传
评论
收藏 247KB DOCX 举报
温馨提示
试读
14页
由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理 由浅入深解析ChatGPT的技术原理
资源推荐
资源详情
资源评论
今天我们为大家带来的文章,深入浅出地阐释了 ChatGPT 背后的技术
原理,没有 NLP 或算法经验的小伙伴,也可以轻松理解 ChatGPT 是如
何工作的。
以下是译文,Enjoy!
这是对支撑 ChatGPT 工作的机器学习模型的一段简略的介绍:以大型
语言模型为基础,然后深入研究使 GPT-3 能够被训练的自注意力机制,
再从人类的反馈中进行强化学习,这就是使 ChatGPT 与众不同的新技
术。
01. 大型语言模型 Large Language Models
ChatGPT 是一种机器学习自然语言处理模型的扩展,称为大语言模型
(LLMs)。LLMs 能够读取学习大量文本数据,并推断文本中单词之间
的关系。随着计算能力的进步,大语言模型在过去几年中得到不断发展。
随着输入数据集和参数空间(parameter space)的增加,LLMs 的能
力也会随之增加。
语言模型最基本的训练涉及预测词单词序列中的单词。在一般情况下,
这样就可以观察到 next-token-prediction(模型被给定一个词序列作
为输入,并被要求预测序列中的下一个词)和
masked-language-modeling(其输入句子中的一些词被替换为特殊
token,例如[MASK],模型被要求预测应该插入到 [MASK] 位置的正
确的词)。
作者任意列举的关于 next-token-prediction 和 masked-language-modeling 的
一个例子
在这种基本的序列建模技术中,通常是以长短期记忆网络(LSTM)模
型来部署的,模型根据语境,用统计意义上最有可能的词来填补空缺的
词组。这种序列建模结构主要有两种限制:
. 这种模型不能让某些词比其他词的权重更高。在上述例子中,虽
然‘reading’可能最常与‘hates’联系在一起。但在数据库中,
‘Jacob’可能是一个热爱阅读的阅读者,以至于模型应该给‘Jacob’
更多的权重而不是‘reading’,并选择‘love’而不是‘hates’。
. 输入的数据都是独立地和按顺序进行处理的,而不是作为一个整
体语料库进行处理。这意味着,当 LSTM 被训练时,上下文(context)
剩余13页未读,继续阅读
资源评论
计算机小陈
- 粉丝: 10
- 资源: 65
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功