ChatGPT的技术逻辑及演进资源-CSDN文库

需积分: 1 6 浏览量 2023-02-10 11:11:34 上传评论收藏 676KB PDF 举报

2022年11月30日，OpenAI推出了一个名为ChatGPT的AI聊天机器人，可以供公众免费测试，短短几天就火爆全网。从头条、公众号上多个宣传来看，它既能写代码、查BUG，还能写小说、写游戏策划，包括向学校写申请书等，貌似无所不能。 ChatGPT是一个由OpenAI开发的AI聊天机器人，它的全称是“生成式预训练转换器”，这表明它是一个能够进行对话交流并且基于大规模数据预先训练的模型。自2022年11月30日发布以来，ChatGPT因其在编写代码、查找错误、创作文学作品以及撰写各种应用文档方面的广泛能力而迅速走红。生成式预训练模型（GPT）的核心概念是通过无监督学习方法，从大量文本数据中自我学习，理解语言的模式和结构。GPT的发展历程中包含了多次迭代和改进。谷歌在2017年首次提出了Transformer架构，这是一种革命性的序列建模技术，它改变了神经网络处理序列数据的方式，通过注意力机制解决了RNN（循环神经网络）的一些问题，如梯度消失和计算效率低。 2018年，OpenAI发布了第一代GPT模型，它基于Transformer架构并进行了生成式预训练，目的是提升语言理解能力。随后，GPT-2和GPT-3分别在2019年和2020年推出，这两个模型进一步扩大了训练数据规模，增强了模型的泛化能力和语言生成质量。GPT-3尤其引人注目，因为它能够在仅用少量示例的情况下进行多种任务的学习，展示出强大的少样本学习能力。随着时间的推移，OpenAI还在不断优化模型，例如2022年的Instruction GPT，它利用人类反馈来改进模型遵循指令的能力，使其能更好地理解和执行用户请求。 Transformer作为GPT的基础，它的核心在于自注意力机制和编码-解码结构。自注意力允许模型在处理序列时同时考虑所有元素，而不是仅依赖于前一时刻的信息，这极大地提高了模型对上下文的理解。在GPT系列模型中，Transformer通常只保留了解码器部分，这是因为对话任务主要涉及生成响应，而不需要编码器来理解输入的源文本。 ChatGPT的火爆源于其在多种场景下的实用性，它不仅能进行自然的语言交互，还可以解决实际问题，比如编程问题和写作任务。然而，需要注意的是，尽管ChatGPT表现出了强大的语言生成能力，但其仍然存在一定的局限性，例如可能产生误导性或不准确的回答，以及缺乏对最新信息的更新。 ChatGPT的技术逻辑是通过预训练的Transformer模型，结合大量的文本数据，学习并理解语言的复杂结构，然后在与用户的互动中生成合适的回应。随着技术的不断发展，我们期待未来ChatGPT等AI聊天机器人在理解和生成语言方面能有更大的突破。

资源推荐

资源详情

资源评论

ChatGPT 的技术逻辑及演进

非典型产品经理笔记

https://www.51cto.com/article/743197.html

ChatGPT 里面有两个词，一个是 Chat，指的是可以对话聊天。另外一个词，就是 GPT。GPT 的

全称，是 Generative Pre-Trained Transformer（生成式预训练 Transfomer 模型）。

I. 前言

11 月 30 日，OpenAI 推出了一个名为 ChatGPT

的 AI 聊天机器人，可以供公众免费测试，短短几天就

火爆全网。从头条、公众号上多个宣传来看，它既能写

代码、查 BUG，还能写小说、写游戏策划，包括向学

校写申请书等，貌似无所不能。本着科 (好) 学 (奇) 的

精神，抽了一些时间对 ChatGPT 进行了了测试验证，

并且梳理了一下 ChatGPT 为什么能这么” 强”。由于

笔者并没有专业学过 AI，同时精力受限，所以短时间

内就不会再有 AI-003 类似更深入到技术的篇章了，了

解 001、002 就已经超出普通吃瓜群众的范畴了。本篇

会有较多技术名词，我会尽量降低其理解难度。同时，

由于非 AI 专业出身，如有错漏、敬请指出。致谢：非

常感谢 X 同学、Z 同学两位大牛的审稿，尤其感谢 X

同学的专业性堪误

II. 什么是 GPT

ChatGPT 里面有两个词，一个是 Chat ，指的是可

以对话聊天。另外一个词，就是 GPT。GPT 的全称，是

Generative Pre-Trained Transformer（生成式预训练

Transfomer 模型）。可以看到里面一共 3 个单词，Gen-

erative

生成式、

Pre-Trained

预训练、和

Transformer

。

有读者可能会注意到，我上面没有给 Transformer 翻

译中文。因为 Transformer 是一个技术专有名词，如

果硬翻译，就是变压器。但是会容易失去本意，还不如

不翻译。在下面第 3 章节会再讲解一下 Transformer。

III. GPT 之技术演进时间线

GPT 从开始至今，其发展历程如下：

2017 年 6 月，Google 发布论文《At-

tention is all you need》，首次提出 Trans-

former 模型，成为 GPT 发展的基础。论文地址：

https://arxiv.org/abs/1706.03762

2018 年 6 月,OpenAI 发布论文《Improving Lan-

guage Understanding by Generative Pre-Training》

(通过生成式预训练提升语言理解能力) ，首次提出

GPT 模型 (Generative Pre-Training)。论文地址：

https://paperswithcode.com/method/gpt 。

2019 年 2 月，OpenAI 发布论文《Language Models

are Unsupervised Multitask Learners》（语言模型应该

是一个无监督多任务学习者），提出 GPT-2 模型。论

文地址: https://paperswithcode.com/method/gpt-2

2020 年 5 月，OpenAI 发布论文《Language Models

are Few-Shot Learners》(语言模型应该是一个少量样

本 (few-shot) 学习者，提出 GPT-3 模型。论文地址：

https://paperswithcode.com/method/gpt-3

2022 年 2 月底，OpenAI 发布论文《Training

language models to follow instructions with hu-

man feedback》（使用人类反馈指令流来训练语

言模型），公布 Instruction GPT 模型。论文地址：

https://arxiv.org/abs/2203.02155

2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模

型，并提供试用，全网火爆。见：AI-001-火爆全网的

聊天机器人 ChatGPT 能做什么

IV. GPT 之 T-TRANSFORMER(2017)

在第 1 小节中，我们说到 Transformer 是没有合

适的翻译的。但是 Transfomer 却是 GPT(Generative

Pre-Training Transfomer) 中最重要、最基础的关键

词。（注：GPT 的 Transformer 相比 google 论文原

版 Transformer 是简化过的，只保留了 Decoder 部分，

见本文 4.3 小节）

A. 重点在好，还是重点在人？

就像好人，最关键的是好，还是人？读者们，是

好吗？一个稍稳妥的答复是：既不是好，也不是人；既

是好，也是人。唔，有点绕，那么说人话一点，展开：

语义上，重点在好；基础和前提上，重点在人。

B. 对不起，你是个好人

再延展一下，那” 对不起，你是个好人” 呢？语义

的重点，变成是对不起。但是语义的前提，还是人。

C. 回归正题，Transfomer 是什么

这篇《十分钟理解 Transfomer》(

https://zhuanlan.zhihu.com/p/82312421 ）可以

看一下。看懂了可以忽略我接下来关于 Transfomer

的内容，直接跳到第 4 章节。如果没太看懂，可以看

下我的理解，对你或许有一定参考作用。

1. 上一代 RNN 模型的重大缺陷

在 Transformer 模型出来前，RNN 模型 (循环神

经网络) 是典型的 NLP 模型架构，基于 RNN 还有其

他一些变种模型（忽略其名字，Transformer 出来后，

已经不再重要了），但是都存在相同的问题，并没能很

好解决。

RNN 的基本原理是，从左到右浏览每个单词向量

(比如说 this is a dog)，保留每个单词的数据，后面的

每个单词，都依赖于前面的单词。

RNN 的关键问题：前后需要顺序、依次计算。可

以想象一下，一本书、一篇文章，里面是有大量单词的，

而又因为顺序依赖性，不能并行，所以效率很低。

这样说可能大家还是不容易理解，我举一个例子

(简化理解，和实际有一定出入）：

在 RNN 循环中，You are a good man 这句话，需

要如何计算呢？

1)、You 和 You are a good man 计算，得到结果

集 Y ou

2)、基于 Y ou 的基础上，再使用 Are 和 You are

a good man ，计算得出 Are

3)、基于 Y ou、Are 的基础，继续计算 a

4)、依此类推，计算 is、good、man ，最终完成

You are a good man 的所有元素的完整计算

可以看到，计算过程是一个一个、顺次计算，单一

流水线，后面的工序依赖前面的工序，所以非常慢

2. Transformer 之 All in Attention

前面我们提到，2017 年 6 月，Google 发布论

文《Attention is all you need》，首次提出 Trans-

former 模型，成为 GPT 发展的基础。论文地址：

https://arxiv.org/abs/1706.03762 从其标题《Atten-

tion is all you need》你就能知道，Transfomer 其实

主张是”All in Attention”。

那么什么是 Attention（注意力）呢？在《Attention

is all you need》论文中，可以看到其定义如下：

自我注意 (self-Attention)，有时称为内部注意，是

一种将单个序列的不同位置联系起来的注意力机制，

以便计算序列的表示。自我注意已成功地应用于阅读

理解、抽象概括、语篇包含和学习任务无关的句子表

示等多种任务中。简单理解，就是单词与单词之间的

关联度，通过注意力 (Attention) 这个向量来描述。比

如说 You are a good man (你是个好人)，AI 在分析 You

的注意力向量时，可能是这么分析的：从 Your are a

good man 这句话中，通过注意力机制进行测算，You

和 You（自身）的注意力关联概率最高 (0.7,70

You 和 man（人）的注意力关联其次 (0.5�50%) ，

你 (you) 是个人 (man)，于是 You,man 的注意力向量

是 0.5

You 和 good(好) 的注意力关联度再次

(0.4, 40%)，你在人的基础上，还是一个好 (good) 人。

于是 You,good 的注意力向量值是 0.4

You,are 向量值是 0.3；You,a 的向量值是 0.2。于

是最终 You 的注意力向量列表是【0.7 、0.3、0.2、0.4、

0.5】（仅本文举例）。

D. 论文中对 attention 和 Transfomer 的价值描述

在论文中，google 对于 attention 和 transfomer

的描述，主要强调了传统模型对顺序依赖存在，Trans-

former 模型可以替代当前的递归模型，消减对输入输

剩余6页未读，继续阅读

评论收藏

内容反馈

路漫漫其修远.

粉丝: 3572
资源: 33

ChatGPT的技术逻辑及演进

ChatGPT技术对话生成的引导和演进式对话设计方法研究.docx

基于ChatGPT技术的综合对话生成与主题演进.docx

ChatGPT技术的演进与未来发展趋势展望.docx

基于chatGPT传媒行业深度研究报告：ChatGPT，技术原理、演进路线和应用场景

ChatGPT的技术演进路线与应用展望 - 知乎.pdf

深度解析chatgpt背后的技术演进.pdf

ChatGPT技术与聊天机器人共同演进的思考.docx

甲子光年2023中国AIGC市场研究报告ChatGPT的技术演进变革风向与投资机会分析54页.pdf

ChatGPT技术对话生成模型的效果评估与改进方法.docx

20230303-中信建投-人工智能行业动态报告：ChatGPT技术演进及研究框架(1).pdf

ChatGPT技术演进与未来发展趋势.docx

ChatGPT技术演进历程与最新进展.docx

2023中国AIGC市场研究报告：ChatGPT的技术演进、变革风向与投资机会分析.pptx

甲子光年2023中国AIGC市场研究报告ChatGPT的技术演进、变革革风向与投资机会分析.zip

ChatGPT技术与面向任务的对话系统的比较.docx

ChatGPT的技术逻辑、社会影响与传播学未来.pdf

ChatGPT技术的市场竞争态势.docx

ChatGPT技术与文本生成的关系.docx

ChatGPT技术的隐私保护措施.docx

利用ChatGPT技术实现个性化的语音对话.docx

【甲子光年】2023中国AIGC市场研究报告：ChatGPT的技术演进、变革风向与投资机会分析.zip

ChatGPT技术的主动引导方法与对话管理策略.docx

ChatGPT技术在对话生成领域的应用案例.docx

【甲子光年】2023中国AIGC市场研究报告：ChatGPT的技术演进、变革风向与投资机会分析.pdf

ChatGPT技术与人类对话的相似性.docx

ChatGPT技术的多轮对话与上下文理解方法.docx

ChatGPT技术与基于图神经网络的对话系统的设计与对比.docx

ChatGPT技术如何处理对话中的澄清与追问.docx

ChatGPT技术的语义一致性优化与信息理解提升方法在智能问答领域的应用实践.docx

最新资源