没有合适的资源？快使用搜索试试~ 我知道了~

文库首页行业研究行业报告大型语言模型（LLMs）概述

大型语言模型（LLMs）概述

语言模型

2 下载量 163 浏览量 2023-08-28 21:11:48 上传评论收藏 1.27MB DOCX 举报

温馨提示

试读

18页

大型语言模型（LLMs）概述

资源推荐

资源详情

资源评论

大型语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如： GPT-3, Bloom, LLaMA)。这种模

型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

大型语言模型的这些参数是在大量文本数据上训练的。现有的大型语言模型主要采用 Transformer 模型

架构，并且在很大程度上扩展了模型大小、预训练数据和总计算量。他们可以更好地理解自然语言，并

根据给定的上下文（例如 prompt）生成高质量的文本。其中某些能力（例如上下文学习）是不可预测

的，只有当模型大小超过某个水平时才能观察到。

以下是 2019 年以来出现的各种大型语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

Source:A timeline of existing LLMs(>10B) https://arxiv.org/abs/2303.18223

在本期文章中，我们将一起探讨大型语言模型的发展历史、语料来源、数据预处理流程策略、训练使用

的网络架构、最新研究方向分析（LLaMA、PaLM-E 等），以及在亚马逊云科技上进行大型语言模型训

练的一些最佳落地实践等。

大型语言模型的发展历史

我们首先来了解下大型语言模型的发展历史和最新研究方向分析。

大型语言模型

1.0。过去五年里，自从我们看到最初的 Transformer 模型

BERT 、BLOOM、GPT、

GPT-2、GPT-3 等的出现，这一代的大型语言模型在

PaLM、Chinchilla 和

LLaMA 中达到了顶峰。第一

代 Transformers 的共同点是：它们都是在大型未加标签的文本语料库上进行预训练的。

大型语言模型

2.0。过去一年里，我们看到许多经过预训练的大型语言模型，正在根据标记的目标数据

进行微调。第二代 Transformers 的共同点是：对目标数据的微调，使用带有人工反馈的强化学习

（ RLHF）或者更经典的监督式学习。第二代大型语言模型的热门例子包括： InstructGPT、

ChatGPT 、Alpaca 和 Bard 等。

大型语言模型

3.0。过去的几个月里，这个领域的热门主题是参数高效微调和对特定领域数据进行预

训练，这是目前提高大型语言模型计算效率和数据效率的最新方法。另外，下一代大型语言模型可能以

多模态和多任务学习为中心，这将为大型语言模型带来更多崭新并突破想象力的众多新功能。

在本文第二章节“ 大模型最新研究方向分析” 中，我们还会深入探讨参数微调、特定数据预训练和多模态等

方向的相关进展分析。

近年来的大型语言模型概览

Source: https://arxiv.org/abs/2303.18223

上图展示了近年来大型语言模型（大于

10B 的参数）的统计数据，包括容量评估、预训练数据规模

（token 数量或存储大小）和硬件资源成本。

图中，“Adaptation” 表示模型是否经过了后续微调： IT 表示指令调整， RLHF 表示通过人工反馈进行强

化学习。“Evaluation” 表示模型在原始论文中是否经过了相应能力的评估： ICL 表示上下文学习（in-

context learning）， CoT 表示思维链（ chain-of-thought）。

大型语言模型的语料来源

与早期的预训练语言模型（PLMs）相比，包含更多参数的大型语言模型需要更大的训练数据量，涵盖了

更广泛的内容。为了满足这种需求，已经发布了越来越多的用于研究的训练数据集。根据他们的内容类

型，大致可分类为六组：图书、CommonCrawl、Reddit 链接、维基百科、代码和其它。如下表所示：

Source: https://arxiv.org/abs/2303.18223

上图展示了现有大型语言模型预训练数据中，各种不同的数据来源占比比率的信息。

大型语言模型的数据预处理策略

在收集了大量数据后，对其进行预处理对于构建预训练语料库至关重要，尤其是要删除嘈杂、冗余、不

相关和潜在的有毒数据，这可能会在很大程度上影响大型语言模型的容量和性能。该论文中，研究者们

用一个章节专门阐述了其研究团队的数据预处理策略，以及如何通过各种方法来提高所收集数据质量。

Source: https://arxiv.org/abs/2303.18223

上图为该论文阐述大型语言模型的预训练数据处理的典型策略概览图。

大型语言模型的网络结构

大型语言模型在训练阶段的网络结构设计参数，也是影响大型语言模型性能的重要指标之一。下表列举

了一些大型语言模型的主要网络结构参数，包括：token 大小、归一化方式、位置嵌入方式、激活函数、

是否使用

Bias、层数、注意力头的数量、隐藏状态大小、最大上下文长度等参数。如下表所示：

Source: https://arxiv.org/abs/2303.18223

上表概述了包含详细配置信息的多个大型语言模型的型号卡（Model cards）：

PE 表示位置嵌入

#L 表示层数

#H 表示注意力头的数量

dmodel 表示隐藏状态的大小

MCL 表示最大上下文长度

大型语言模型的涌现能力

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」，这是 LLM 与以前的

PLM 区分开来的最显著特征之一。当出现这种新的能力时，它还引入了一个显著的特征：当规模达到一

定水平时，性能显著高于随机的状态。以此类推，这种新模式与物理学中的相变现象密切相关。原则

上，这种能力也可以与一些复杂的任务有关，而人们更关心可以应用于解决多个任务的通用能力。

剩余17页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

千源万码

粉丝: 772
资源: 368

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

大型语言模型（LLMs）概述

Generative AI 新世界：大型语言模型（LLMs）概述.pdf

大型语言模型（Large Language Models，LLMs）概览.docx

大语言模型的发展趋势分析

大语言模型综述：从T5到GPT-4最全盘点

ChatGPT和大型语言模型（LLMs）： 实用指南

大语言模型LLMs应用于多模态推荐系统的实践思考

大语言模型(LLMs)应用于推荐系统

LLMRec-基于pormpt提示大语言模型(LLMs)的个性化基于内容的多模态推荐系统

中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)

大语言模型处理时间序列：Time-Series Forecasting with Pre-Trained LLMs.pdf

WSDM2024ID与Modality大模型(LLMs)通过图数据增强辅助基于内容的多模态推荐系统

用GPT-4做大模型指令微调，新任务零样本性能再提升

AI 的新突破，GPT 技术，可开发的潜力无穷

数据规模缩小 200 倍！超低训练成本的指令微调，完美复刻大模型

人工智能-项目实践-大语言模型-中文LLaMA&Alpaca大语言模型 (Chinese LLaMA & Alpaca LLMs

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用 GPT-4 做大模型指令微调，新任务零样本性能再提升

超越ChatGPT和Llama2，新一代检索增强方法Self-RAG来了

浅谈chatgpt未来强势发展

GPT模型成功的背后用到了哪些以数据为中心的人工智能技术？

chatgpt学习资料，欢迎大家补充好玩的gpt项目

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

基于小波与卷积神经网络的多尺度时间序列分类.zip

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

最新资源

ChatGPT和大型语言模型（LLMs）：实用指南