Prompt-Tuning：深度解读一种全新的微调范式_p-tunning与prompt-tunning资源-CSDN文库

需积分: 5 61 浏览量 2023-10-31 08:39:28 上传评论 1 收藏 17.21MB PDF 举报

Prompt-Tuning是一种新兴的微调方法，它针对预训练语言模型（LLM）进行优化，以适应各种自然语言处理（NLP）任务。这一技术在人工智能生成内容（AIGC）时代尤其受到关注，因为超大规模模型如GPT-3等正逐渐成为对话式、生成式和多模态应用的核心。预训练语言模型的发展经历了三个阶段。最初，模型通过自监督任务（如Masked Language Modeling, MLM和Next Sentence Prediction, NSP）进行预训练，例如BERT和GPT。接着，随着模型参数量和训练数据规模的扩大，出现了BART、T5等模型，它们探索了不同的架构类型。AIGC阶段，模型变得越来越大，如InstructionGPT、ChatGPT和GPT-4，它们强调与人类的交互，并致力于提供可靠、安全、无害的对话体验。 Prompt-Tuning起源于GPT-3，它尝试克服传统Fine-tuning的局限性。在传统Fine-tuning中，预训练模型在特定下游任务上微调时，需要大量监督数据，并且预训练和微调的目标之间可能存在显著差异。Prompt-Tuning通过引入“prompt”，即任务指令，来弥合这种差异。Prompt可以是离散的（如文本模板）或连续的（如嵌入向量），目的是让模型在少量样本或无样本的情况下理解并执行任务。 Prompt-Tuning有几种形式，包括In-Context Learning，其中模型在上下文中学习任务，通过观察示例输入和输出来推断任务模式。另一种是Chain-of-Thought，这种方法强调模型的推理过程，通过展示逻辑步骤帮助模型理解复杂任务。对于黑盒模型，prompt可以用来提供额外的上下文信息，帮助模型更好地理解和生成响应。 Prompt-Tuning的优势在于减少了对额外参数的需求，降低了训练成本，同时提高了模型在新任务上的泛化能力。它特别适用于处理超大规模模型，如GPT-3，这些模型的参数数量巨大，不适合传统的Fine-tuning方法。通过Prompt-Tuning，可以实现模型的高效利用，减少对大量标注数据的依赖，这对于资源有限的环境尤其有利。随着研究的深入，Prompt的设计和选择成为关键问题。针对不同类型的NLP任务，可能需要设计特定的prompt结构和策略，以激发模型的潜在能力。此外，如何评估和优化prompt的有效性也是一个活跃的研究领域。展望未来，Prompt-Tuning的研究将继续深化，可能的方向包括更智能的prompt生成、更有效的优化算法以及更广泛的适用场景。随着模型和算法的进步，prompt可能成为连接预训练模型与实际应用的重要桥梁，推动NLP领域的创新和发展。

资源推荐

资源详情

资源评论

作

者

王

嘉

宁

邮

箱

| ly g w j n @ 1 2 6 . c o m

整

理

| Ne w B e e N L P

公

众

号

h t t p s : / / w j n 1 9 9 6 . b l o g . c s d n . n e t / a r t i c l e / d e t a i l s / 1 2 0 6 0 7 0 5 0

本

博

客

针

对

P r o m p t

进

⾏

的

综

述

博

客

，

暂时

为

半

成

品

，

持

续

更

新

中

，

若

对

您

的

科

研

和

⼯

作

有

所

帮

助

，

期

待

您

的

收

藏

与

引

⽤

。

本

⽂

最

新

更

新

于

：

2 0 2 3

年

⽉

2 9

⽇

阅

读该

博

客

，

您

将

系统

地

掌握

如

下

知

识

点

：

什么

是

预

训

练

语⾔

模

型

？

什么

是

p r o m p t

？

为什么

要

引

⼊

p r o m p t

？

相

⽐

传

统

f i n e - t u n i n g

有

什么优

势

？

⾃

2 0

年底开

始

，

p r o m p t

的

发

展

历

程

，

哪

些

经

典

的

代

表

⽅

法

？

⾯

向

不

同

种

类

N L P

任

务

，

p r o m p t

如

何

选

择

和

设计

？

⾯

向

超

⼤

规

模模

型

，

如

何借

助

p r o m p t

进

⾏

参

数

有

效

性

训

练

？

⾯

向

G P T 3

，

什么

是

I n - C o n t e x t L e a r n i n g

？

什么

是

C h a i n - O f - Th o u g h t

？

⾯

向

⿊

盒

模

型

，

如

何使

⽤

p r o m p t

？

C h a t G P T

⾥

有

哪

些

p r o m p t

技

术

？

未来

p r o m p t

的

发

展

与

研

究

前

景

P r o m p t

的

由

浅

⼊

深

的

理

解

：

级

：

P r o m p t

是

⼀

种

对

任

务

的

指

令

；

级

：

P r o m p t

是

⼀

种

对

预

训

练

⽬

标

的

复

⽤

；

级

：

P r o m p t

本

质

是

参

数

有

效

性

训

练

；

热点

预

览

预

训

练

语⾔

模

型

的

发

展

历

程

⾃

从

G P T

、

E M L O

、

B E RT

的相

继

提

出

，

以

P r e - t r a i n i n g + F i n e - t u n i n g

的

模

式

在

诸

多

⾃

然

语⾔

处

理

（

N L P

）

任

务

中

被

⼴

泛

使

⽤

，

其先

在

P r e - t r a i n i n g

阶

段

通

过

⼀个

模

型在

⼤

规

模

⽆

监督

语

料

上

预

先

训

练

⼀个

预

训

练

语⾔

模

型

（

P r e - t r a i n e d

L a n g u a g e M o d e l

，

P L M

）

，

然

后

在

F i n e - t u n i n g

阶

段

基

于

训

练

好

的

语⾔

模

型在

具

体

的

下

游

任

务

上

再

次

进

⾏

微

调

（

Fi n e - t u n i n g

）

，

以

获

得

适

应

下

游

任

务

的

模

型

。

这

种

模

式

在

诸

多

任

务

的

表

现

上

超越

了传

统

的监督

学

习

⽅

法

，不

论

在

⼯

业

⽣

产

、

科

研

创

新

还

是

竞

赛

中

均

作为

新

的

主

流

⽅

式

。

然

⽽

，

这

套

模

式

也

存

在

着

⼀

些

问题

。

例

如

，

在

⼤

多

数

的

下

游

任

务

微

调

时

，

下

游

任

务

的⽬

标

与

预

训

练

的⽬

标

差

距

过

⼤

导

致

提

升

效

果

不

明显

，

微

调

过

程

中依

赖

⼤

量

的监督

语

料

等

。

⾄

此

，

以

G P T- 3

、

P E T

为

⾸

提

出

⼀

种

基

于

预

训

练

语⾔

模

型

的

新

的

微

调

范

式

— — P r o m p t -

Tu n i n g

，

其

旨

在

通过

添

加

模

板

的

⽅

法

来

避

免

引

⼊

额

外

的

参

数

，

从

⽽

让语⾔

模

型

可

以

在

⼩

样本

（

Few - s h o t

）

或

零

样本

（

Z e r o - s h o t

）

场

景

下

达

到

理

想

的

效

果

。

P r o m p t -

Tu n i n g

⼜可

以

称

为

P r o m p t

、

P r o m p t i n g

、

P r o m p t - b a s e d Fi n e - t u n i n g

等

。

因

此

简

单

的

来

说

，

P r o m p t - Tun i n g

的

动

机

旨

在

解

决

⽬

前

传

统

Fi n e - t u n i n g

的

两个

痛

点

问

题

：

降

低

语

义

差

异

（

B r i d g e t h e g a p b e t w e e n P r e - t ra i n i n g a n d Fi n e - t u n i n g

）

：

预

训

练

任

务

主

要

以

M a s k e d L a n g u a g e M o d e l i n g

（

M L M

）

为主

，

⽽

下

游

任

务则

重

新

引

⼊

新

的

训

练

参

数

，

因

此

两个

阶

段

的⽬

标

通

常

有

较

⼤

差

异

。

因

此

需

要解

决

如

何

缩

⼩

P r e - t r a i n i n g

和

Fi n e - t u n i n g

两个

阶

段

⽬

标

差

距

过

⼤

的

问题

；

避

免

过

拟

合

（

O v e r f i t t i n g o f t h e h e a d

）

：

由

于

在

Fi n e - t u n i n g

阶

段

需

要

新

引

⼊

额

外

的

参

数

以

适配

相

应

的

任

务

需

要

，

因

此

在

样本

数

量

有

限

的

情

况

容

易

发

⽣

过

拟

合

，

降

低了

模

型

的

泛

化

能

⼒

。

因

此

需

要

⾯

对

预

训

练

语⾔

模

型

的

过

拟

合

问题

。

本

⽂

将

深

⼊

解读

P r o m p t - Tun i n g

的

微

调

范

式

，

以

综

述

讨论

的

形式

展

开

。

第

⼀

章

：

预

训

练

语⾔

模

型

涉

及

知

识

点

：

单向

语⾔

模

型

、

双向

语⾔

模

型

；

Tra n s f o r m e r

；

预

训

练

任

务

，

包

括

M L M

、

N S P

等

；

N L P

的

任

务

类

型

以

及

f i n e - t u n i n g

；

预

训

练

语⾔

模

型

想

必

⼤

家已

经

不

再

陌

⽣

，

以

G P T

、

E L M O

和

B E RT

为

⾸

的

预

训

练

语

⾔

模

型在

近

两

年

内

⼤

放

异彩

。

预

训

练

语⾔

模

型

主

要

分

为

单向和双向

两

种

类

型

：

单向

：

以

G P T

为

⾸

，

强

调

从

左

向右

的

编

码

顺

序

，

适

⽤

于

E n c o d e r- D e c o d e r

模

式

的

⾃

回

归

（

Au t o - r e g r e s s iv e

）

模

型

；

双向

：

以

E L M O

为

⾸

，

强

调

从

左

向右和

从

右向

左

双向

编

码

，

但

E L M O

的

主体

是

L S T M

，

由

于

其

是

串

形

地

进

⾏

编

码

，

导

致

其

运

⾏

速

度

较

慢

，

因

此

最

近

B E RT

则

以

Tra n s f o r m e r

为主体

结

构

作为

双向

语⾔

模

型

的

基

准

。

现

如

今

常

⽤

的

语⾔

模

型

⼤多

数

是

B E RT

及

其

变

体

，

它

的

主体

结

构

Tra n s f o r m e r

模

型

是

由

⾕

歌

机

器

翻

译

团

队

在

1 7

年

末

提

出

的

，

是

⼀

种

完

全利

⽤

a t t e n t i o n

机

制

构

建

的

端

到

端

模

型

，

具

体

算

法

详解

可

详

情

【

预

训

练

语⾔

模

型

】

A t t e n t i o n I s A l l Yo u Ne e d

（

Tra n s f o r m e r

）

。

之

所

以

选

择

Tra n s f o r m e r

，

是

因

为

其

完

全

以

A t t e n t i o n

作为

计

算

推

理

技

术

，

任

意

的

两

个

t o k e n

均

可

以

两两

交互

，

使

得

推

理

完

全

可

以

由

矩

阵

乘

机来替

代

，

实

现

了

可

并

⾏

化

计

算

，

因

此

Tra n s f o r m e r

也

可

以

认

为

是

⼀个

全

连

接

图

，

缓

解

了

序

列

数据

普

遍

存

在

的

⻓

距

离

依

赖

和

梯

度

消

失

等

缺

陷

。

在

N L P

领

域

中

，

A t t e n t i o n

机

制

的⽬

标是

对

具

有

强

相

关

的

t o k e n

之

间

提

⾼

模

型

的

关

注

度

。

例

如

在

⽂

本

分

类

中

，

部

分

词

对

分

类

产

⽣

的

贡

献

更

⼤

，

则

会

分

配较

⼤

的

权

重

。

对

句

⼦

的

编

码

主

要

⽬

标是

为了

让

模

型

记

住

t o k e n

的

语

义

。

传

统

的

L S T M

则

只

能

通过

⻓

短

期

记

忆

的

⽅

法

来

捕捉

t o k e n

之

间

的

关

系

，

容

易

导

致

梯

度

消

失

或

记

忆

模

糊

问题

，

⽽

Tra n s f o r m e r

中

，

任

意

的

t o k e n

之

间

都

有显

式

的

连

接

，

避

免

了

⻓

距

离

依

赖

性

问

题

。

当

然

Tra n s f o r m e r

也

增

加

了

p o s i t i o n e m b e d d i n g

以

区

分

不

同

t o k e n

的

位

置

关

系

，

1.1

经

典

的

Pre-trained

任

务

本

⽂

的⽬

标是

介

绍

P r o m p t - Tun i n g

的

⽅

法

，

⽽

P r o m p t - Tun i n g

的

动

机

则

是

进

⼀

步

拉

近

微

调

与

预

训

练

阶

段

的

任

务

⽬

标

，

因

此

本

部

分则

以

常

⽤

的

B E RT

为主

，

简

单

介

绍

P r e -

t r a i n i n g

的

经

典

⽅

法

，

更

加

详

细

的

解读

，

可参

考

：

【

预

训

练

语⾔

模

型

】

B E RT: Pr e -

t r a i n i n g of D e e p Bi d i r e c t i o n a l Tr a n s f o r m e r s f o r L a n g u a g e Un d e r s t a n d i n g

（

B E RT

）

。

（

）

Ma sk ed L an gu ag e Mo de li ng

（

ML M

）

[ 1 ]

[ 2 ]

剩余67页未读，继续阅读

评论收藏

内容反馈

will4025

粉丝: 0
资源: 5

Prompt-Tuning：深度解读一种全新的微调范式

提示学习Prompt Tuning：面向研究综述 - 知乎.pdf

大模型prompt-tuning方法

大模型promt-Tuning

P-tuning:一种新的方法来调整语言模型。 纸的代码和数据集``GPT也能理解''

react-native-prompt-android:一个在Android平台上用于Alert.prompt的polyfill库，可在Android和iOS平台上使用

StableDiffusion-Prompt-Generator-GPT-Neo-125M

prompt-sync:node.js的同步提示

Python库资源大全

prompt-to-prompt-main

别再Prompt了！谷歌提出tuning新方法，强力释放GPT-3潜力！ .pdf

prompt-skeleton:CLI提示的行为一致

P-Tuning.pdf

P-Tuning v2.pdf

linux-command-prompt:Linux命令提示符（PHP Shell）

zsh-prompt-compact:简洁的单行提示

kube-prompt-bash:在bash提示符下显示上下文，用户，名称空间

git-prompt-useremail：zsh插件为git user.email添加了提示提醒

prompt-list:此存储库已存档，请改用“查询者”

cmd工具--prompt command

华为S系列交换机配置命令.pdf

SQL Prompt_9.1.4.4532破解版

Delphi_2006下IntraWeb网络考试系统开发综合实例

SQL Prompt_9.0.4.3408破解版

Prompt tuning新工作，五个参数解决下游任务 fine-tuning .pdf

SQLPrompt-10.14.0.4064.exe 支持SSMS 19.1

python-prompt-toolkit：用于在Python中构建功能强大的交互式命令行应用程序的库

llama3优秀的prompt-优秀的prompt堪比微调效果

cobra-prompt:连接眼镜蛇和提示

微调fine-tuning 微调通过训练⽐prompt所能容纳的更多的示例.pdf

最新资源

P-tuning:一种新的方法来调整语言模型。纸的代码和数据集``GPT也能理解''