【免费】GPT模型成功的背后用到了哪些以数据为中心的人工智能技术？

共1个文件

docx：1个

人工智能

语言模型

自然语言处理

需积分: 0 145 浏览量 2023-04-30 23:28:19 上传评论收藏 503KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

GPT模型成功的背后用到了哪些以数据为中心的人工智能技术？.zip （1个子文件）

GPT模型成功的背后用到了哪些以数据为中心的人工智能技术？.docx 534KB

人工智能（ Artificial Intelligence, AI）最近取得了巨大的进展，特别

是大语言模型（Large Language Models, LLMs），比如最近火爆全

网的 ChatGPT 和 GPT-4 [1]。 GPT 模型在各项自然语言处理任务

上有着惊人的效果。至于具体有多强，这里就不再赘述了。做了这么

多年 AI 研究好久没这么激动过了。没试过的朋友赶紧试一下！

正所谓「大力出奇迹」，把参数量调「大」能提高模型性能已经成为

了大家的普遍共识。但是仅仅增加模型参数就够了吗？仔细阅读

GPT 的一系列论文后就会发现，仅仅增加模型参数是不够的。它们

的成功在很大程度上还归功于用于训练它们的大量和高质量的数据。

在本文中，我们将从数据为中心的人工智能视角 [2] 去分析一系列

GPT 模型（之后会用 Data-centric AI 以避免啰嗦）。Data-centric

AI 大体上可以分文三个目标 [3] ：训练数据开发（ training data

development）、推理数据开发（ inference data development）和

数据维护（ data maintenance）。本文将讨论 GPT 模型是如何实现

（或者可能即将实现）这三个目标的。

什么是大语言模型？什么又是 GPT 模型？

这章将简单介绍下大语言模型和 GPT 模型，对它们比较熟悉的读者

可以跳过。大语言模型指的是一类自然语言处理模型。顾名思义，大

语言模型指的是比较「大」的（神经网络）语言模型。语言模型在自

然语言处理领域已经被研究过很久了，它们常常被用来根据上文来推

理词语的概率。例如，大语言模型的一个基本功能是根据上文预测缺

失词或短语的出现概率。我们常常需要用到大量的数据去训练模型，

使得模型学到普遍的规律。

▲ 通过上文来预测缺失词示意图

GPT 模型是由 OpenAI 开发的一系列大语言模型，主要包括

GPT-1 [4]， GPT-2 [5]， GPT-3 [6]， InstructGPT [7] 以及最近上线的

ChatGPT/GPT-4 [8]。就像其他大语言模型一样，GPT 模型的架构主

要基于 Transformer [9]，以文本和位置信息的向量为输入，使用注

意力机制来建模词之间的关系。

▲ GPT-1 模型的网络结构，图片来自原论文

之后的 GPT 系列模型结构大体上都与 GPT-1 类似，主要区别在于

更多参数（更多层，更多隐含层维度等等）。

▲ GPT 系列模型大小比较

什么是 Data-centric AI?

Data-centric AI 是一种搭建 AI 系统的新理念，被吴恩达老师大力

倡导。我们这里引用下他给出的定义。

Data - centri c A I is t h e disc i pl ine of system a ti cally e ngineer i ng the

data used t o build an AI s ys tem.

— An d rew Ng

传统的搭建 AI 模型的方法主要是去迭代模型，数据相对固定。比如，

我们通常会聚焦于几个基准数据集，然后设计各式各样的模型去提高

预测准确率。这种方式我们称作以模型为中心（ model-centric）。然

而， model-centric 没有考虑到实际应用中数据可能出现的各种问题，

例如不准确的标签，数据重复和异常数据等。准确率高的模型只能确

保很好地「拟合」了数据，并不一定意味着实际应用中会有很好的表

现。

与 model-centric 不同， Data-centric 更侧重于提高数据的质量和

数量。也就是说 Data-centric AI 关注的是数据本身，而模型相对固

定。采用 Data-centric AI 的方法在实际场景中会有更大的潜力，因

为数据很大程度上决定了模型能力的上限。

需要注意的是，「 Data-centric」与「 Data-driven」（数据驱动），

是两个根本上不同的概念。后者仅强调使用数据去指导 AI 系统的搭

建，这仍是聚焦于开发模型而不是去改变数据。

▲ Data-centric AI 和 model-centric AI 的区别

Data-centric AI 框架 [2] 包括三个目标：

1. 训练数据开发（ training data development）旨在构建足够数量

的高质量数据，以支持机器学习模型的训练。

2. 推理数据开发（ inference data development）旨在构建模型推

理的数据，主要用于以下两个目的：

�

评估模型的某种能力，比如构建对抗攻击（ Adversarial Attacks）

数据以测试模型的鲁棒性

�

解锁模型的某种能力，比如提示工程（ Prompt Engineering）

�

3. 数据维护（ data maintenance）旨在确保数据在动态环境中的质

量和可靠性。在实际生产环境（ production environment）中，我们

并不是只训练一次模型，数据和模型是需要不断更新的。这个过程需

要采取一定的措施去持续维护数据。

▲ Data-centric AI 框架第二层是目标，第三层是子目标

为什么 Data-centric AI 是 GPT 模型取得成功的重要原因？

数月前，Yann LeCun 发文称 ChatGPT 在技术上并不是什么新鲜事

物。的确如此， ChatGPT 和 GPT-4 中使用的方法，比如

Transformer 、「从人类反馈中进行的强化学习」（ Reinforcement

Learning from Human Feedback， RLHF）等都不是什么新技术。即

便如此， ChatGPT 还是取得了以前的模型无法企及的惊人效果。那

么，是什么推动了它的成功？

毋庸置疑，增加模型参数的数量对 GPT 模型的成功至关重要，但这

只是其中的一个原因。通过详细阅读 GPT-1 、 GPT-2 、 GPT-3 、

InstructGPT 和 ChatGPT/GPT-4 论文中有关数据的描述，我们可以

评论收藏

内容反馈

残余的记忆

粉丝: 8
资源: 323

GPT模型成功的背后用到了哪些以数据为中心的人工智能技术？

GPT模型成功的背后用到了哪些以数据为中心的人工智能（Data-centric AI）技术？

GPT 模型成功的背后用到了哪些以数据为中心的人工智能（Data-centric AI）技术？

谈谈GPT 模型背后以数据为中心的 AI

Cerebras公司公开，开源GPT模型，竟然可以商用？

python基于开源GPT2.0的创作型人工智能可扩展可EssayKiller_V2-master.zip

家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

网易在自己的超级项目《逆水寒》手游中推出了国内第一款GPT

GPT该怎么用？我们还有什么用？

如何利用GPT-4在生活中大展身手，让你的生活焕然一新！

ChatGPT AI编程玩法拆解

LeCun力荐，哈佛博士分享用GPT-4搞科研，细到每个工作流程

人工智能-项目实践-意图识别-基于知识图谱的智能问答系统，包含意图识别与类知识库送入LLM方法.zip

看了这些老外的骚操作，我也觉得应该暂停GPT4

课程设计-基于知识图谱的智能问答系统python源码(包含意图识别与类知识库送入LLM方法).zip

ChatGPT设计缓解压力的小游戏，附带代码演示过程.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

chromedriver-win64.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

多头注意力+自适应带宽核密度估计+区间预测 - CNN-GRU-MATT-ABKDE的多头注意力机制自适应带宽核密度估计

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

软件工程专业简历模板 (2).docx

应聘软件测试工程师简历模板.doc

chrome-win64.zip

北森能力测评题库.zip

最新资源