击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

深度学习

106 浏览量 2023-10-18 18:05:33 上传评论收藏 2.15MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式.rar （1个子文件）

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式.pdf 2.31MB

2023/6/28 22:31

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

https://mp.weixin.qq.com/s/oMUASBSKe3xgGVLuQz7MGg

1/14

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

收录于合集

#卖萌屋@自然语言处理

97个

文  | ZenMoore

编  | 小轶

写在前面

一觉醒来，迷糊之中看到一条推特：

ZenMoore 2022-05-13 10:00 发表于四川

原创

夕小瑶科技说

2023/6/28 22:31

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

https://mp.weixin.qq.com/s/oMUASBSKe3xgGVLuQz7MGg

2/14

2023/6/28 22:31

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

https://mp.weixin.qq.com/s/oMUASBSKe3xgGVLuQz7MGg

3/14

瞬间清醒！

Go ogle 的 Yi Tay (and Mostafa) 团队提出了一个新的策略 Mixture-of-Denoisers, 统一了

各大预训练范式。

重新思考现在的预训练精调，我们有各种各样的预训练范式： decoder-only or encoder-d

ecoder , span corruption or language model , 等等，不同的范式建模了不同的上下文

关系，也正是因为如此，不同的预训练范式适配不同类型的下游任务。例如，基于双向上下

文的预训练 (span corruption ，如 T5) 更加适用于 fact completion ，基于单向上文

(P refixLM/LM，如GPT等)更加适用于 open ended. 也就是说，具体的下游任务类型需要选

用特定的预训练策略 ...

准确地说，常见有三套范式：单向文本建模的CausalLM(i.e. LM)，双向文本建模的 span

corruption, 前缀文本建模的 PrefixLM.

这是大一统吗？感觉只能是小一统，总感觉还缺少一味菜！

今天，Google 把这道菜补上了！那就是：Mixture-of-Denoisers

先来感受一下效果：

2023/6/28 22:31

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

https://mp.weixin.qq.com/s/oMUASBSKe3xgGVLuQz7MGg

4/14

论文标题： Unifying Language Learning Paradigms

论文作者： Yi Tay, Mostafa Dehghani, etc. (Google)

论文链接： https://arxiv.org/pdf/2205.05131.pdf

方法(UL2)

先说一下本文方法的目的：构建一种独立于模型架构以及下游任务类型的预训练策略，可以

灵活地适配不同类型的下游任务。

整个方法的框架和 UniLM[1] 是很相似的，但是引入了稀疏化。

Mixture-of-Denoisers

首先回顾上文所说的三个预训练范式：CausalLM, Pref ixLM, span corruption，其实都可以统

一到 spancorruption ：

定义函数 , 这里为平均 span 长度，为 corruption rate, 为

corrupted span 的数量 .定义输入序列长度为，经过正态分布或者均匀分布采样 corrputed

span 后，训练模型学习恢复这些 span.

2023/6/28 22:31

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式

https://mp.weixin.qq.com/s/oMUASBSKe3xgGVLuQz7MGg

5/14

可见，对于 CausalLM ，只需要设置 ; 对于 P refixLM, 只需要设置

( 为前缀长度)。

基于此，作者提出了 Mixture-of-Denoisers :

R-Denoiser : regular denoising. corrupted span 的长度为 2-5 个 tokens, 大约是 15% 的

掩码率。通常用于获得知识而不是生成流畅文本的能力。

S-D enoiser : sequential denoising. 保留严格的序列顺序，通常用于 inputs-to-targets 任

务，如 PrefixLM. 需要注意的是，可见的 Prefix 仍然是上下文建模方式，但是被掩码掉的

长 span 是不可见的。

X-Denoiser : extreme denoising. 可以看作 R-denoiser 和 S-denoiser 的中间体，是一种

极端的情况，也就是 span length 非常长，或者 masking rate 非常大。一般用于长文本生

成任务，因为这类任务一般只有非常有限的上下文记忆信息。

最后，本文使用的七个  denoiser 设定如下：

Mode Switching

本文提出通过 mode-switching 来进行 paradigm-shifting. 首先在预训练的时候，新增三个

special tokens : ，分别指代三个 paradigms (i.e... denoiser). 然后在下游任务精调

或者小样本学习时，也为特定任务的设定和需要，新增一个 paradigm token, 以触发模型学习

更优的方案。

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 632

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式.rar

击败GPT3，刷新50个SOTA！谷歌全面统一NLP范式.pdf

GPT-4大模型硬核解读！看完成半个专家.pdf

GPT-3诞生，Finetune也不再必要了！NLP领域又一核弹！.rar

别再Prompt了！谷歌提出tuning新方法，强力释放GPT-3潜力！ .rar

完爆GPT3、谷歌PaLM！检索增强模型Atlas刷新知识类小样本任务SOTA.pdf

完爆GPT3、谷歌PaLM！检索增强模型Atlas刷新知识类小样本任务SOTA.

最新研究，GPT-4暴露了缺点！无法完全理解语言歧义！.pdf

火爆全网，全网最强GPT-AI助手上线！！！

GPT 模型背后的原理!!!

人工智能-从CHAT-GPT到生成式AI（Generative AI）：人工智能新范式，重新定义生产力.rar

AllenAI _ 用GPT-3帮助增建数据，NLI任务直接提升十个点！？ .rar

超详尽！一百五十多页的微软GPT研究报告（全中文版）.rar

AllenAI 发布万能问答系统 MACAW！各类题型样样精通，性能大幅超越 GPT-3！ .rar

GPT4.0安卓版.rar

以4%参数量比肩GPT-3！Deepmind 发布检索型 LM，或将成为 LM 发展新趋势！？ .rar

让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯，GPT-4一骑绝尘！.pdf

GPT-3.5 能直接联网了！

文心一言、GPT3.5及GPT-4的应用测评对比.rar

开源版本gpt3.5无需服务器搭建（阿里云函数）.rar

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

HAI-2024斯坦福AI指数报告（中文译版）.pdf

2023泛娱乐社交出海手册-ZEGO即构科技

4个亲测好用的ChatGPT4渠道

毕业设计的概要介绍与分析

最新资源