没有合适的资源?快使用搜索试试~ 我知道了~
关于语言大模型的八大论断
需积分: 1 0 下载量 165 浏览量
2023-06-27
09:55:52
上传
评论
收藏 836KB PDF 举报
温馨提示
试读
11页
关于语言大模型的八大论断,总结了八个可能引发思考的观点,并讨论了LLM还存在的局限性。即便没有针对性的创新,LLM的能力也会随着投资的增加而可预估地增强;LLM中的一些重要行为往往作为增加投资的“副产品”不可预测地出现;LLM经常学习并使用外部世界的表征;目前还没有可靠的技术来引导LLM的行为;专家们还不能解释LLM的内部运作情况;人类在一项任务上的表现并不是LLM表现的上限;LLM不需要表达其创造者的价值观,也不需要表达网络文本中编码的价值观;与LLM的简短互动往往具有误导性。语言大模型及其衍生产品,如ChatGPT等,最近引起了记者、政策制定者和学者们的极大关注。然而,该技术在许多方面都没有达到人们的预期效果,对它的简要概述往往容易忽略重点。本文提出了八个大胆论断,预计这些论断在LLM相关讨论中将引起关注。它们代表着模型开发人员对LLM的普遍看法。
资源推荐
资源详情
资源评论
关于语言大模型的八大论断
近几个月来,语言大模型(LLM)的广泛公开部署引起了倡导
者 、 政 策 制 定 者 和 许 多 领 域 学 者 们 的 新 一 轮 关 注 和 参 与 。 本文
主要总结了 八个可能引发思考的观点,并讨论了 LLM 还存在的
局限性。
即便没有针对性的创新,LLM 的能力也会随着投资的增加
而可预估地增强
LLM 中的一些重要行为往往作为增加投资的“ 副产品” 不可
预测地出现
LLM 经常学习并使用外部世界的表征
目前还没有可靠的技术来引导 LLM 的行为
专家们还不能解释 LLM 的内部运作情况
人类在一项任务上的表现并不是 LLM 表现的上限
LLM 不需要表达其创造者的价值观,也不需要表达网络文
本中编码的价值观
与 LLM 的简短互动往往具有误导性
语言大模型及其衍生产品,如 Ch atGPT 等,最近引起了记者、政
策制定者和学者们的极大关注。然而,该技术在许多方面都没有
达到人们的预期效果,对它的简要概述往往容易忽略重点。 本
文提出了八个大胆论断,预计这些论断在 LL M 相关讨论中将引起
关 注 。它 们 代 表 着 模 型 开 发 人 员 对 LL M 的普遍看法。 本文的目
的并非针对 LLM 提出规范性意见。对于颠覆性新技术的态度应该
由核心技术研发社区之外的学者、倡导者和立法者们在充分了解
情况的基础上决定。 1 即 便 没 有 针 对 性 创 新 , LLM 的能力
也 会 随 着 投 资 的 增 加 而 可 预 估 地 增 强 规模定律(s c a l i n g
law)是近期 LLM 研究和投资激增的主要原因。有了规模定律,
当沿着模型输入的数据量、模型大小(参数量)以及训练模型的
计算量(以 F L O P 为单位))扩展 LLM 时,我们将能够预测模
型 的 未 来 能 力 。 这 样 在 面 对 关 键 设 计 决 策 时 就 可 以 直 接 作 决 策 ,
无需耗费巨资反复试验。 这种精确预测能力在软件史,甚至现
代人工智能研究史上都是不同寻常的。这也是推动投资的强大工
具 ,有 了 这 一 预 测 能 力 ,研 发 团 队 可 以 进 行 耗 资 数 百 万 美 元 的 模
型训练项目,并确保这些项目能成功产生有经济价值的系
统。
图 1 :摘自 OpenAI( 2023b):一种语言模型性能的规模定律结果,显示了将模
型训练时所使用的计算量从小型原型系统扩大 10,000,000,000 倍至 GPT - 4 时的
持续趋势。
以下面三个截然不同的系统为例:O p e n A I 的 原 始 G P T 能够执行
简单的文本标注任务,但无法生成连贯性文本;G P T - 2 增加了生
成相对高质量文本的能力,并且能够有限地遵循简单指令;G P T - 3
是第一个现代通用型 LL M,在 各 种 语 言 任 务 上 都 具 有 实 用 性 。 这
三个模型在设计上几乎没有太大差异,它 们 的 性 能 差 异 主 要 源 于
规模, G P T - 3 的训练计算量大约是原始 G P T 的 2 0 0 0 0 倍 , 且 拥 有
更多的数据和参数。这 三 个 模 型 之 间 存 在 重 大 创 新 ,但 几 乎 都 是
基 础 设 施 创 新 , 而 并 非 语 言 模 型 方 面 的 设 计 创 新 。 虽然目前
LLM 训练技术不 再 普 遍 公 开 , 但 最 近 的 报 告 表 明 , 现 在 语 言 大 模
型的发展趋势与上面的预测只有轻微偏差,且系统设计基本没有
变化。 将这些技术进一步扩展,直至超越 G P T - 3 ,获得了进一
步经济价值回报:后续的 GP T- 4 模型在许多研究生和专业考试中
都 超 过 了 人 类 ,其 开 发 还 推 动 了 数 十 亿 美 元 的 投 资 。规 模 定 律 使
GPT- 4 的 创 造 者 能 够 以 低 成 本 准 确 预 测 其 性 能 的 关 键 整 体 指 标 :
他 们 通 过 拟 合 小 型 模 型 性 能 的 统 计 趋 势 ,并 进 行 趋 势 推 断 来 实 现
这 一 预 测 ( 见 图 1 ) , 这 些 模 型 总 共 占 用 了 最 终 模 型 所 需 资 源 的
0.1%。 2LLM 的 一 些 重 要 行 为 往 往 作 为 增 加 投 资 的 “ 副产品”
意 外出现 通 常 情 况 下 ,规 模 定 律 只 能 预 测 模 型 的 预 训 练 测 试 损
失(p r e t r a i n in g test loss ),这测量了模型正确预测不完整
文本将如何延续的能力。尽管这种测量与模型在许多实际任务中
的平均效用之间存在相关性,但无法预测模型将何时展现特定技
能或具备特定任务的能力(参见图 2) 。 通 常 情 况 下 , 模 型 可 能
在某个任务上一直失败,但将训练规模增加五到十倍时,以同样
方式训练出的新模型会在该任务上表现良
好。
图 2 :摘自 Wei 等人(2022a):在语言大模型上评估特定任务或行为的表现通
常不显示可预测的趋势,而且从资源消耗较少的模型版本过渡到资源消耗更多的
版本时,往往会突现新行为。 W e i 等 人 展 示 了 B I G- B e n c h 中 的 任 务 ,
剩余10页未读,继续阅读
资源评论
sam5198
- 粉丝: 405
- 资源: 109
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功