谷歌&HuggingFace_零样本能力最强的语言模型结构.rar

共1个文件

pdf：1个

版权申诉

53 浏览量 2023-10-18 18:06:08 上传评论收藏 1.67MB RAR 举报

标题中的“谷歌&HuggingFace_ 零样本能力最强的语言模型结构”表明了这个压缩包文件的内容聚焦于由谷歌公司与Hugging Face合作开发的一种先进的语言模型，该模型在零样本（Zero-Shot）学习任务中表现出极强的能力。在自然语言处理（NLP）领域，零样本学习是深度学习的一个重要分支，它允许模型在没有特定类别示例的情况下进行推理和执行任务，从而提高了模型的泛化能力和实用性。 Hugging Face是一家专注于构建和维护机器学习模型库的公司，其平台提供了大量预训练的NLP模型，便于开发者使用和微调。谷歌作为全球领先的科技公司，其在AI领域的研究和开发一直处于前沿位置，尤其是语言模型方面，如BERT、T5等都是由谷歌研发并公开的里程碑式模型。零样本学习是深度学习中的一种无监督或半监督学习方法，主要应用于计算机视觉（CV）、自然语言处理（NLP）和人工智能（AI）等领域。在这种情况下，语言模型被训练成能够理解广泛的上下文和概念，而无需针对特定任务进行额外的训练。这意味着模型能够处理未见过的任务，只需基于其已有的广泛知识就能生成合适的输出。谷歌与Hugging Face合作的语言模型可能采用了创新的架构设计，如Transformer或者其变体，以增强模型的序列理解和生成能力。这些模型通常包含大量的参数，能够捕获语言的复杂性，并通过预训练阶段在大规模文本数据上学习到通用的语言表示。在深度学习中，模型的性能往往取决于其架构设计和训练策略。对于零样本能力最强的语言模型，可能采用了自注意力机制，使得模型能够同时考虑输入序列的全局信息，以及预训练和微调策略，比如 masked language modeling 和 next sentence prediction 等任务，来提高模型对语言结构的理解。标签中提到的“AIGC”（AI生成内容）暗示了这种模型可能用于创作各种类型的内容，如文章、对话、甚至代码。而“CV”（计算机视觉）则意味着模型可能也适用于跨模态的学习任务，将视觉信息与语言理解相结合。 “NLP”（自然语言处理）标签明确了这个模型的主要应用领域，包括但不限于文本分类、情感分析、问答系统、机器翻译等。而“深度学习”标签则强调了模型的核心技术基础。压缩包内的“谷歌&HuggingFace_ 零样本能力最强的语言模型结构.pdf”文件很可能是详细的技术报告或论文，涵盖了模型的架构细节、训练过程、实验结果以及可能的应用场景。阅读这份文档将有助于深入理解这一先进技术的工作原理和潜在价值。这个压缩包文件包含了关于谷歌和Hugging Face合作开发的、具有出色零样本学习能力的语言模型的详细信息，对于研究者和开发者来说，这是一个宝贵的资源，可以深入了解如何构建能够理解和生成复杂语言的先进AI模型。

资源推荐

资源详情

资源评论

收起资源包目录

谷歌&HuggingFace_ 零样本能力最强的语言模型结构.rar （1个子文件）

谷歌&HuggingFace_ 零样本能力最强的语言模型结构.pdf 1.82MB

2023/6/28 17:17

谷歌&HuggingFace| 零样本能力最强的语言模型结构

https://mp.weixin.qq.com/s/hTUxSctHsetjORMvm8XkSw

1/9

谷歌&HuggingFace| 零样本能力最强的语言模型结构

收录于合集

#卖萌屋@自然语言处理

97个

文  | iven

从 GP T3 到 Prompt，越来越多人发现大模型在零样本学习（zero-shot）的设定下有非常好的

表现。这都让大家对 AGI 的到来越来越期待。

但有一件事让人非常疑惑：19 年 T5 通过“调参” 发现，设计预训练模型时，Encoder-Decoder

的模型结构 + MLM 任务，在下游任务 finetune 效果是最好的。可是在 2202 年的当下，主流

的大模型用的都是仅  decoder 的模型结构设计，比如 OpenAI 的 GPT 系列、 Google 的

PaLM [1]、Deepmind 的 Chinchilla [2] 等等。这是为什么？难道这些大模型设计都有问题？

今天带来一篇 Hugging Face 和 Google 的文章。这篇文章与 T5 在实验上的思路相似，通过大

量对比设计，得到一个重磅结论：要是为了模型的  zero-shot 泛化能力， decoder 结构  +

语言模型任务最好；要是再 multitask finetuning， encoder-decoder 结构 + MLM 任务

最好。

除了找到最好的训练方式，作者通过大量的实验，还找到了最好的同时还能最节省成本的训练

方式。训练计算量只需要九分之一！

论文题目 :

What Language Model Architecture and Pretraining Objective Work Best for Zero-

iven 2022-06-23 12:05 发表于四川

原创

夕小瑶科技说

2023/6/28 17:17

谷歌&HuggingFace| 零样本能力最强的语言模型结构

https://mp.weixin.qq.com/s/hTUxSctHsetjORMvm8XkSw

2/9

Shot Generalization?

论文链接 :

https://arxiv.org/abs/2204.05832

模型设计

模型设计可以分成图中的四个方面，即选什么结构？什么训练目标？要不要搞 adaptation？

multitask finetuning？文章还在两个 benchmark 进行了评测。

模型结构Architecture

模型结构都基于 transformer，有三个选项，如图所示：

1. Causal decoder-only (CD)：直接只用 transformer decoder。这类模型大多使用语言模型

的训练目标，即通过上文预测当前 token。代表作有 GP T 系列。

2. Non-causal decoder-only (ND)：为了能在给定条件下生成或基于输入生成，训练时可以

让前面一部分 token 可见。

3. Encoder-decoder (ED)：这就是原始 transformer 的结构，输入一个序列，encoder 输出

同样长度的向量表示序列，decoder 基于 encoder 的输出做有条件的自回归生成。

2023/6/28 17:17

谷歌&HuggingFace| 零样本能力最强的语言模型结构

https://mp.weixin.qq.com/s/hTUxSctHsetjORMvm8XkSw

3/9

小结一下，CD 是只用 decoder，ND 是给提示的 decoder，ED 是 encoder-decoder。后面将

用缩写表示。

训练目标Objective

与模型结构对应，训练目标也有三种：

1. Full language modeling (FLM)：CD 类的模型架构常用 FLM，通过上文预测当前 token。

在训练时，每个 token 可以并行计算出 loss，预测时要迭代预测。

2. Prefix language modeling (PLM)：ND 类和 ED 类的模型架构可以用 PLM。首先在

attention 矩阵中定义一段 prefix，训练时要求模型生成 prefix 后面的 tokens。

3. Masked language modeling (MLM)：只用 Encoder 的模型常用 MLM 目标。后来在 T5 这

个 seq2seq 模型里，也使用了整段 mask 的 MLM 任务。

小结一下，FLM 就是语言模型目标，PLM 是带提示的语言模型目标，MLM 是掩码目标。后面

也会用缩写表示。

适应任务Adaptation

适应任务是预训练之后，换一个新的训练目标，继续训练。与 finetune 不同的是，适应的过

程并没有使用新的下游任务的数据，只是继续使用预训练的数据。适应任务也可以分成两类。

1. Language modeling adaptation (LM-A)：预训练用 MLM，后面再用 PLM 或 FLM 继续训

练。MLM + FLM 就是 T5 采用的方式，而 MLM + PLM，就是之前非常火的连续化

prompt-tuning 的方法，比如 prefix-tuning 等等。

2. Non-causal MLM adaptation (NC-A) ：预训练用的是 PLM，后面再用 FLM 继续训练。这

个方法是本文首次提出的，给 decoder 前面一部分 prefix 固定住，用 PLM 目标训练，相

当于给 GPT 做 prefix-tuning。

多任务微调Multitask finetuning

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 2w+
资源: 635

谷歌&HuggingFace_ 零样本能力最强的语言模型结构.rar

谷歌&HuggingFace_ 零样本能力最强的语言模型结构.pdf

HuggingFace NLP 课程文档.epub

huggingface安装教程

huggingface在本地缓存的glue（路径参考：~\.cache\huggingface\datasets\glue）

三菱 Q系列PLC样本.part1.rar.rar

FX系列样本.part1.rar.rar

FX系列样本.part2.rar.rar

MLI_vectorielle_SIMULINK_it_源码.rar.rar

三菱 Q系列PLC样本.part2.rar.rar

Premium 自动化系统平台产品样本.part1.rar.rar

Premium 自动化系统平台产品样本.part2.rar.rar

Premium 自动化系统平台产品样本.part3.rar.rar

yangbenshang.rar_matlab 样本熵_matlab 熵_样本熵 matlab_样本熵 matlab_样本熵计

attacks.zip_C w attack_c&w 攻击_对抗样本_对抗样本攻击_攻击样本C

vgg_generated_64.i.rar

cnn+biaoqian_断层识别_断层人工智能_断层_CNN_源码.rar.rar

FGX_Native_Samples_1.0.1.0.rar

k-means_K._高斯混合_k-means高斯_机器学习_聚类_源码.rar.rar

chi_sim.rar

fixed_increment_method.rar_fixed_样本增广

leaveout.rar_training_留一_留一法_训练样本

BP.rar_训练样本数

久茂热量表温度传感器PR_90055样本1.rar

样本点自动计算版本1.rar_linemut_matlaB nastran_requireoqj

[防雷工程施工合同样本]防雷工程施工资质.rar

19273131.rar_样本熵_样本熵 EEG_样本熵 matlab_脑电信号样本_脑电样本熵

CRAFT_MODEL.rar

FCM.rar_FCM分析是什么_大样本聚类_样本数据聚类_聚类 标号_聚类分析法

kNN_python.rar_datingTestSet_datingTestSet.txt_datingTestSet2.t_

最新资源

FCM.rar_FCM分析是什么_大样本聚类_样本数据聚类_聚类标号_聚类分析法