【免费】ChatGPT技术原理总结资源-CSDN文库

共1个文件

docx：1个

需积分: 0 31 浏览量更新于2023-04-23 收藏 551KB ZIP 举报

最近ChatGPT可以说是火遍了全世界，作为由知名人工智能研究机构OpenAI于2022年11月30日发布的一个大型语言预训练模型，他的核心在于能够理解人类的自然语言，并使用贴近人类语言风格的方式来进行回复。模型开放使用以来，在人工智能领域引起了巨大的轰动，也成功火出了技术圈。从数据上看，ChatGPT用户数在5天内就达到了100万，2个月就达到了1亿；另外，在很多非人工智能领域，已经有机构在尝试用ChatGPT去做一些智能生成的事。例如财通证券发布了一篇由ChatGPT生成的行业研报，从研报的可读性和专业性上来看，虽然在细节上有很多需要推敲的地方，但是整体框架内容已经比较成熟。对于其他内容生产者来说，应用ChatGPT也能够提升个人的生产效率。 ChatGPT的强大能力是显而易见的，但对于人工智能领域不太熟悉的人，对这种黑盒的技术仍然会担忧或者不信任。恐惧通常来自于不了解，因此本文将为大家全面剖析ChatGPT的技术原理，尽量以简单通俗的文字为大家解惑。通过本文，你可以有以下收获： 1、知道ChatGPT是什么 2、ChatGPT有哪些核心要素 3、ChatGPT能做哪些事

收起资源包目录

2.zip （1个子文件）

2.docx 606KB

资源推荐

资源预览

资源评论

最近 ChatGPT 可以说是火遍了全世界，作为由知名人工智能研究机构 OpenAI 于 2022

年 11 月 30 日发布的一个大型语言预训练模型，他的核心在于能够理解人类的自然语言，

并使用贴近人类语言风格的方式来进行回复。模型开放使用以来，在人工智能领域引起

了巨大的轰动，也成功火出了技术圈。从数据上看，ChatGPT 用户数在 5 天内就达到了

100 万，2 个月就达到了 1 亿；另外，在很多非人工智能领域，已经有机构在尝试用

ChatGPT 去做一些智能生成的事。例如财通证券发布了一篇由 ChatGPT 生成的行业研

报，从研报的可读性和专业性上来看，虽然在细节上有很多需要推敲的地方，但是整体

框架内容已经比较成熟。对于其他内容生产者来说，应用 ChatGPT 也能够提升个人的

生产效率。

ChatGPT 的强大能力是显而易见的，但对于人工智能领域不太熟悉的人，对这种黑盒的

技术仍然会担忧或者不信任。恐惧通常来自于不了解，因此本文将为大家全面剖析

ChatGPT 的技术原理，尽量以简单通俗的文字为大家解惑。

通过本文，你可以有以下收获：

1、知道 ChatGPT 是什么

2、ChatGPT 有哪些核心要素

3、ChatGPT 能做哪些事

4、ChatGPT 不能做哪些事

一、ChatGPT 是什么？

上文说到 ChatGPT 实际上是一个大型语言预训练模型（即 Large Language Model，后

面统一简称 LLM）。什么叫 LLM？LLM 指的是利用大量文本数据来训练的语言模型，

这种模型可以产生出强大的语言关联能力，能够从上下文中抽取出更多的信息。其实语

言模型的研究从很早就开始了，随着算力的发展和数据规模的增长，语言模型的能力随

着模型参数量的增加而提升。下图分别展示了 LLM 在参数量和数据量上的进化情况，其

中数据量图例展示的是模型在预训练过程中会见到的 token 数量，对于中文来说一个

token 就相当于一个中文字符。

https://www.vinayiyengar.com/2022/08/04/the-promise-and-perils-of-large-language-

models/

https://babylm.github.io/

为什么语言模型的参数量和数据量会朝着越来越大的方向发展呢？在早些时间的一些研

究已经证明，随着参数量和训练数据量的增大，语言模型的能力会随着参数量的指数增

长而线性增长，这种现象被称为 Scaling Law（下图左例）。但是在 2022 年之后，随着

进来对大模型的深入研究，人们发现当模型的参数量大于一定程度的时候，模型能力会

突然暴涨，模型会突然拥有一些突变能力（Emergent Ability，下图右例），如推理能力、

零样本学习能力等（后面均会介绍）。

https://franxyao.github.io/blog.html

ChatGPT 真正强大的地方在于他除了能够充分理解我们人类的问题需求外，还能够用流

畅的自然语言进行应答，这是以前的语言模型不能实现的。下面，本文将 ChatGPT 一

分为二，分别从 GPT 和 Chat 两个维度来介绍 ChatGPT 的机理。值得说明的是：当前

OpenAI 并未放出 ChatGPT 相关的训练细节和论文，也没有开源代码，只能从其技术

BLOG 上获取其大致的训练框架和步骤，因此本文介绍的内容将根据后续实际发布的官

方细节而更新。

二、GPT

GPT 全称 Generative Pre-training Transformer，由 Google 在 2018 年提出的一种预训

练语言模型。他的核心是一个 Transformer 结构，主要基于注意力机制来建模序列中不

同位置之间的关联关系，最后可用于处理序列生成的任务。通过使用大量的文本数据，

GPT 可以生成各种各样的文本，包括对话、新闻报道、小说等等。上面提到了很多次语

言模型，这里简单给出语言模型主要的涵义：

给定已知的 token 序列 N_t（对中文来说是字符，对英文来说可能是单词或者词根），

通过语言模型来预测 t+1 位置上的 token 是什么。实际上模型输出的是所有 token 在 t+1

位置上的概率向量，然后根据概率最大的准则选择 token。大家在使用 ChatGPT 的时候，

一定有发现机器人在生成回复的时候是一个字一个字的顺序，背后的机制就是来自于这

边。

cs224n:

https://web.stanford.edu/class/cs224n/slides/cs224n-2023-lecture11-prompting-rlhf.pd

对语言模型来说，可能大家之前更熟悉的是 BERT，BERT 是 Google 在 2018 年发布的

一种双向语言模型，发布后，其在不同语言理解类任务（如文本分类，信息抽取，文本

相似度建模）中都达到了当期时间节点的最好效果。BERT 与上述语言模型的机理有所

不同，其训练任务相当于让模型去做完形填空任务（官方称为 Masked Language Model

任务，下文简称 MLM)，并不是遵循文本一个接一个预测的顺序，其模型机制与人类沟

通表达的习惯不太符合。图中左半部分是 BERT 的示意图，右半部是 GPT 的示意图，Trm

为一个 Transformer 模型组件，E 为输入的 token 序列，T 为模型生成的 token 序列。

其中，实线部分为该位置的 Trm 能够看到哪些其他位置 token 的上下文知识。可以看到，

对于 BERT 来说，每个位置上的 Trm 都能看到任意位置的上下文知识，因此其在具体的

自然语言理解任务上会有不错的效果。而 GPT 则是遵循传统语言模型的模式，例如

index=1 位置的 Trm 是无法看到 index>1 的知识的，因此它在自然语言理解任务上的效

果不如 BERT，但是在生成任务上会更符合人类的直觉。业界把 BERT 中的 MLM 模式

称为自编码形式(auto-encoding)，把 GPT 的模式称为自回归形式（auto-regressive）。

https://arxiv.org/abs/2302.09419

大家从 BERT 和 GPT 的对比中可以看到，BERT 在语言理解上似乎更具优势，那为何

现在 ChatGPT 的模型基座是 GPT 呢？这就涉及到最近两年逐渐清晰的 NLP 任务大一

统趋势了。

三、NLP 任务大一统

基于 MLM 训练范式得到的 BERT 模型虽然在很多语言理解类任务上有不错的效果下游

任务，之后整个业界在处理 NLP 任务的时候通常会遵循预训练模型→下游任务 finetune

的流程：

这种方式与传统的 training from scratch 相比，对下游任务数据的需求量更少，得到的效

果也更优。不过，上述方式还是存在一些问题：

1. 处理一个新的任务就需要标注新的语料，对语料的需求比较大，之前已经做过的任务

语料无法高效利用。即使是信息抽取下面的不同任务（如实体识别和关系抽取两个任务）

也无法通用化。

2. 处理一个新的任务需要针对任务特性设计整体模型方案，虽然 BERT 模型的底座已经

确定，但还是需要一定的设计工作量。例如文本分类的任务和信息抽取的任务的模型方

案就完全不同。

对于要走向通用人工智能方向的人类来说，这种范式很难达到通用，对每个不同任务都

用单独的模型方案和数据来训练显然也是低效的。因此，为了让一个模型能够尽量涵盖

更多的任务，业界尝试了几种不同的路径来实现这个目标。

· 对 BERT 中的 MLM 进行改造，如引入一些特殊的 Mask 机制，使其能够同时支持多种

不同任务，典型的模型如 UniLM https://arxiv.org/abs/1905.03197

刘德华一不小心就打代码

粉丝: 4389
资源: 440

ChatGPT技术原理总结

ChatGPT技术总结

总结：一文搞懂chatGPT原理

ChatGPT技术的对抗性攻击与防御研究.docx

ChatGPT技术简介与原理解析.docx

ChatGPT技术简介与基本原理解析.docx

ChatGPT技术的知识增添与知识迁移.docx

ChatGPT工作原理分析.zip

ChatGPT 原理.pdf

一文读懂ChatGPT模型原理.docx

【ChatGPT的原理分析】资源

ChatGPT技术对话生成中的言外之意理解与推断研究.docx

ChatGPT技术如何处理潜在的偏见问题.docx

ChatGPT技术如何生成符合语境的回答.docx

ChatGPT的原理分析

ChatGPT技术如何进行对话生成与推理.docx

ChatGPT技术的失败案例剖析与教训总结.docx

ChatGPT技术与Chatbot的区别与联系解析.docx

ChatGPT技术的语义一致性与逻辑推理分析.docx

基于chatGPT传媒行业深度研究报告：ChatGPT，技术原理、演进路线和应用场景

吴恩达ChatGPT课程详细总结

ChatGPT技术用于移动应用对话界面的实践指南.docx

ChatGPT技术对话质量评估指标及评价方法.docx

ChatGPT技术的主动学习与远程教育应用策略.docx

ChatGPT技术对语言学研究的推动作用.docx

类ChatGPT技术嵌入政务服务网的应用场景、风险隐患与实施建议.pdf

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

Visio2013 安装包及破解方法

最新资源

李飞飞自传我看见的世界 The World I see