【免费】GPT-4都已经这么强了，那未来的GPT-5会是什么样子？资源-CSDN文库

共1个文件

docx：1个

自然语言处理

需积分: 0 108 浏览量 2023-04-22 16:41:22 上传评论收藏 469KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

GPT-4 都已经这么强了，那未来的 GPT-5 会是什么样子？.zip （1个子文件）

GPT-4 都已经这么强了，那未来的 GPT-5 会是什么样子？.docx 513KB

技术发展超出了所有人的预期

最近做了很多关于 chatGPT 的研究，感叹技术发展之快。因为我在

2019 年前后接触过 NLP 的研究，当时身边的朋友普遍的论调都是“相

比 CV 视觉领域，NLP 还需要 10 年才能应用”，现在看来真是目光短

浅了。如今 4 年过去了，语言模型能处理的问题大大超出了我们的理

解，落下 4 年的功课，最近重新研究，发现所谓的“大力出奇迹”不能完

全概括 openAI 这群人在技术路径选择的远见和坚持。如果大家能细品

这几年 NLP 领域技术发展之路，或许，会更感叹这群人的努力是多么

珍贵。

本篇文章也是对我最近研究的一个总结。因为我从 2020 年开始已经再

也没有写过代码，重新回看这些论文也很吃力，但是现在的思考角度会

更偏向业务人员，所以我想，写出来的内容对于技术小白来说应该更好

懂。

从循环神经网络 RNN 开始

我们把时间拉回到最早的语言模型身上。那时候最有效的模型应该就属

RNN，我们不去深究其中的细节原理，只从物理直觉角度阐述这一类模

型的特点。

这一类模型主要是利用了语言中的前后次序关系来预测。“他好像一条

狗”，“狗”这个词的预测依赖于之前的词，所以在模型的架构上，就是“循

环结构”，下一个变量依赖于上一个变量。

这一类模型在时序数据上面的表现很不错，时序数据不仅有语言，还包

括了股票等数据集。这非常符合人类的直觉，但是也有不少问题：

第一，随着模型层数的增加，最早的数据会被淹没，词与词之间的关系

无法被有效考量。

第二，无法并行计算，模型能够处理的数据量有限，由于模型中的次序

关系存在，无法像图片一样用 GPU 并行计算，限制了模型大小。

第三，只能用在特定的学习任务上，比如说做翻译的模型，不能用来做

文字生成。

一切的开始，Attention 和 Transformer

GPT 包括后续很多技术的开始其实都始于 google。2017 年，google

的研究员发表了一篇非常深远的文章，这也目前大多数语言模型的基石

架构。

从直觉来理解其实非常简单。他们认为人类在说话的时候，每一个词和

其他词有关联，就像人的注意力一样。我们看下面这张图更好理解，下

图中输出的"it"和左侧的关系强弱可以通过颜色深浅看出来，那么这种机

制可以被赋予权重从而应用在网络之中。

通过这样的注意力机制，语言模型就可以脱离开 RNN 结构，粗暴地甩

开了之前大家常用的模型网络。算法的效果很不错，而且设计上非常精

巧。

这里我想提一个很有趣的现象，笔者亲历，当时很多的科研人员尝试研

究路径是将 Transformer 和 RNN 结合，效果确实也会变得更好，但

是现在来看，这一个方向就是死胡同，所以回过头来看这段时间，会有

不一样的体悟。

BERT 和 GPT-1，输在起跑线上

2018 年前后，openAI 开始发力了，他们发表了第一个 GPT 模型。同

时代，google 也发表了 BERT 模型。下面是当时最火的三个模型。可

内容反馈

残余的记忆

粉丝: 9
资源: 323

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip