Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记-Redian新闻.pdf资源-CSDN文库

需积分: 1 136 浏览量 2023-09-15 14:03:53 上传评论收藏 5.41MB PDF 举报

资源推荐

资源详情

资源评论

4/23/23, 2:05 PM

Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记 | Redian新闻

https://redian.news/wxnews/287351

1/32

Redian新闻

> 公众号

>

Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记

Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读

笔记

公众号新闻

2 个月前

来自：老刘说NLP

进NLP群—>加入NLP交流群

Meta最近提出了LLaMA(开放和高效的基础语言模型)模型参数包括从7B到65B等多个版本。最

值得注意的是，LLaMA-13B的性能优于GPT-3，而体积却小了10倍以上，LLaMA-65B与

Chinchilla-70B和PaLM-540B具有竞争性。

Meta表示，该模型在数以万亿计的token上进行训练，并表明有可能完全使用公开的数据集来

训练最先进的模型，而不需要求助于专有的和不可获取的数据集。

特别的，LLaMA-13B在大多数基准上超过了GPT-3（175B），LLaMA-65B与最好的模型

Chinchilla-70B和PaLM-540B具有明显竞争力。

为了了解该工作，本文主要通过研读该论文，供大家一起参考。

4/23/23, 2:05 PM

Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记 | Redian新闻

https://redian.news/wxnews/287351

2/32

该论文介绍了对模型架构的修改（Vaswani等人，2017），给出了具体的训练方法，并报告了

模型的性能以及在一组标准基准上与其他LLMs进行了比较。

地址：https://github.com/facebookresearch/llama

一、工作简介与问题的提出

在大量的文本语料库中训练的大型语言模型（LLMs）已经显示出它们能够从文本指令或少数

例子中形成新的任务（Brown等人，2020）。

在将模型扩展到足够大的规模时，首次出现了这些少见的特性（Kaplan等人，2020年），从

而形成了一个专注于进一步扩展这些模型的工作路线（Chowdhery等人，2022年；Rae等人，

2021年）。

这些努力都是基于这样的假设：更多的参数会带来更好的性能。然而，Hoffmann等人

（2022）最近的工作表明，在给定的计算预算下，最好的性能不是由最大的模型实现的，

而是由在更多数据上训练的较小的模型实现的。

Hoff-mann等人（2022）的缩放定律的目标是确定如何在特定的训练计算预算下最佳地扩

展数据集和模型大小。然而，这个目标忽略了推理预算，而推理预算在大规模服务语言模型

时变得至关重要。

在这种情况下，给定一个目标性能水平，首选的模型不是训练速度最快的，而是推理速度

最快的，尽管训练一个大的模型以达到一定的性能水平可能更便宜，但训练时间较长的小模

型最终会在推理中更便宜。

例如，Hoffmann等人（2022年）曾建议在200B的token上训练一个10B的模型，但研究发现

7B的模型的性能甚至在1T的token之后还能继续提高。

因此，该工作的重点是训练一系列语言模型，通过对比通常使用的更多的token进行训

练，在不同的推理预算下达到最佳的性能。

该工作得到的模型被称为LLaMA，参数范围从7B到65B，与现有的最佳LLM相比，具有竞争力

的性能。

尽管LLaMA-13B比GPT-3小10倍，但在大多数基准测试中都超过了GPT-3。这个模型将有助

于增强对LLM的访问和研究，因为它可以在单个GPU上运行。此外，65B参数模型也可以与最

剩余31页未读，继续阅读

内容反馈

IT徐师兄

粉丝: 1950
资源: 2689

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip