人 工 智 能 ( Artificial Intelligence, AI) 最 近 取 得 了 巨 大 的 进 展 , 特 别
是 大 语 言 模型(Large Language Models, LLMs), 比 如 最 近火爆全
网 的 ChatGPT 和 GPT-4 [1]。 GPT 模 型 在 各 项 自 然 语 言 处 理 任 务
上 有 着 惊 人的效果。至 于 具 体 有 多 强 ,这 里 就 不 再 赘 述 了 。做 了 这 么
多 年 AI 研 究 好 久 没 这 么 激动过了。 没 试 过 的 朋 友 赶 紧 试 一 下 !
正 所 谓 「 大力出奇迹 」, 把 参 数 量 调「大」能 提 高 模 型 性 能 已 经 成 为
了 大 家 的 普 遍 共 识 。 但 是 仅 仅 增 加 模 型 参 数 就 够 了 吗 ? 仔 细 阅 读
GPT 的 一 系 列 论 文 后 就 会 发 现 , 仅 仅 增 加 模 型 参 数 是 不 够 的 。 它 们
的 成 功 在 很 大 程 度 上 还 归 功 于 用 于 训 练 它 们 的 大 量 和 高 质 量 的 数 据 。
在 本 文 中 , 我 们 将 从 数 据 为 中 心 的 人 工 智 能 视 角 [2] 去 分 析 一 系 列
GPT 模 型( 之 后 会 用 Data-centric AI 以 避 免 啰 嗦 ) 。Data-centric
AI 大 体 上 可 以 分 文 三 个 目 标 [3] : 训 练 数 据 开 发 ( training data
development) 、 推 理 数 据 开 发 ( inference data development) 和
数 据 维 护( data maintenance) 。本 文 将 讨 论 GPT 模 型 是 如 何 实 现
( 或 者 可 能即将实现 ) 这 三 个 目 标 的 。
什么是大语言模型?什么又是 GPT 模型?
这 章 将 简 单介绍下大 语 言 模 型 和 GPT 模 型 ,对它们比 较 熟 悉 的 读 者
可 以 跳 过 。大 语 言 模 型 指 的 是 一类自然语 言 处 理 模 型 。顾 名 思义,大
语 言 模 型 指的是比较「大」的(神经网 络 )语言 模 型 。语 言 模 型 在 自
然 语 言 处 理领域已经 被 研 究 过 很 久 了 ,它们常 常 被 用 来 根 据 上 文 来 推
理 词 语 的 概率。例 如 ,大 语 言 模 型 的 一 个 基 本 功能是根据 上 文 预 测 缺
失 词 或 短 语 的 出 现 概 率 。 我 们 常 常 需 要 用 到 大 量 的 数 据 去 训 练 模 型 ,
使 得 模 型 学到普遍的 规 律 。
▲ 通过上文来预测缺失词示意图
GPT 模 型 是 由 OpenAI 开 发 的 一 系 列 大 语 言 模 型 , 主 要 包 括
GPT-1 [4], GPT-2 [5], GPT-3 [6], InstructGPT [7] 以 及 最 近 上 线 的
ChatGPT/GPT-4 [8]。就 像 其 他 大 语 言 模型一样,GPT 模 型 的 架构主
要 基 于 Transformer [9], 以 文 本 和 位 置 信 息 的 向 量 为 输 入 , 使 用 注
意 力 机 制 来建模词之 间 的 关 系 。