没有合适的资源?快使用搜索试试~ 我知道了~
所谓语言模型的训练和学习,就是从大量的数据中学习复杂的上下文联系
需积分: 0 0 下载量 84 浏览量
2023-04-24
14:56:04
上传
评论
收藏 618KB DOCX 举报
温馨提示
试读
33页
所谓语言模型的训练和学习,就是从大量的数据中学习复杂的上下文联系
资源推荐
资源详情
资源评论
前言
这两天,ChatGPT 模型真可谓称得上是狂拽酷炫 D 炸天的存在了。一
度登上了知乎热搜,这对科技类话题是非常难的存在。不光是做人工智
能、机器学习的人关注,而是大量的各行各业从业人员都来关注这个模
型,真可谓空前盛世。
我赶紧把 OpenAI 以往的 GPT-n 系列论文又翻出来,重新学习一下,
认真领会大规模预训练语言模型(Large Language Model)的强大
之处。
可能很多深度学习相关从业人员的感受和我一样,大家之前对 LLM 的
感受依然是,预训练+finetune,处理下游任务,依然需要大量的标注
数据和人工干预,怎么突然间,ChatGPT 就智能到如此地步?
接下来,我简要梳理一下 OpenAI 的 GPT 大模型的发展历程。
一、还得从 Bert 说起
2018 年,自然语言处理 NLP 领域也步入了 LLM 时代,谷歌出品的
Bert 模型横空出世,碾压了以往的所有模型,直接在各种 NLP 的建模
任务中取得了最佳的成绩。
Bert 做了什么,主要用以下例子做解释。
请各位做一个完形填空: ___________和阿里、腾讯一起并
成为中国互联网 BAT 三巨头。
请问上述空格应该填什么?有的人回答“百度”,有的人可能觉得,
“字节”也没错。但总不再可能是别的字了。
不论填什么,这里都表明,空格处填什么字,是受到上下文决定和影响
的。
Bert 所作的事就是从大规模的上亿的文本预料中,随机地扣掉一部分
字,形成上面例子的完形填空题型,不断地学习空格处到底该填写什么。
所谓语言模型的训练和学习,就是从大量的数据中学习复杂的上下文联
系。
二、GPT 初代
与此同时,OpenAI 早于 Bert 出品了一个初代 GPT 模型。
它们大致思想是一样的。都基于 Transformer 这种编码器,获取了文
本内部的相互联系。
Transformer 结构
编解码的概念广泛应用于各个领域,在 NLP 领域,人们使用语言一般
包括三个步骤:
接受听到或读到的语言 -> 大脑理解 -> 输出要说的语
言。
语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存
储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,
就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫
做语言的编码。
相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的
解码。
在语言模型中,编码器和解码器都是由一个个的 Transformer 组件拼
接在一起形成的。
Transformer 编码器组成的 Encoder-decoder 模型
这里不展开讲 Transformer 里的内部结构,仅仅讲一下 Bert 和 GPT
的区别。
两者最主要的区别在于,Bert 仅仅使用了 encoder 也就是编码器部
分进行模型训练,GPT 仅仅使用了 decoder 部分。两者各自走上了
各自的道路,根据我粗浅的理解,GPT 的 decoder 模型更加适应于
文本生成领域。
GPT 初代其实个人认为(当然普遍也都这么认为)略逊色于 Bert,再
加上宣传地不够好,影响力也就小于 Bert。
我相信很多的 NLP 从业者对 LLM 的理解也大都停留在
此。即,本质上讲,LLM 是一个非常复杂的编码器,将文
本表示成一个向量表示,这个向量表示有助于解决 NLP
的任务。
三、GPT-2
自从 Bert 炸街后,跟风效仿的改进模型也就越来越多了,比如
albert、roberta、ERNIE,BART、XLNET、T5 等等五花八门。
最初的时候,预训练任务仅仅是一个完形填空任务就可以让语言模型有
了极大进步,那么,很多人就想,给 LLM 模型出其它的语言题型,应
该也会对模型训练有极大的帮助。
想要出语言题型不是很简单么,什么句子打乱顺序再排序、选择题、判
断题、改错题、把预测单字改成预测实体词汇等等,纷纷都可以制定数
据集添加在模型的预训练里。很多模型也都是这么干的。
剩余32页未读,继续阅读
资源评论
oSnail12345
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于GO语言实现的XUPT研究生学业奖学金评定系统
- nodejs制作excel表格到json格式、js文件
- 瓶装酒酒盖液体瑕疵缺陷检测数据集VOC+YOLO格式5031张13类别.7z
- 基于ASMSEdit的输入数据校验
- MySql5.7版本连接Unity需要的mysql.data.dll文件
- 基于Objective-C实现手机共享单车信息管理系统设计与实现
- Firewalls Don't Stop Dragons, 3rd Edition
- rk3588rk3588s使用c++多线程异步等优化c++实现源码(yolov5运行可达到142fps)+项目使用说明.zip
- Jenkins Continuous Integration Cookbook, Second Edition
- 首涂第二十八套-新版海螺M3多功能苹果CMSv10自适应全屏高端模板 (1).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功