没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
本文是XLNet论文的全文翻译,转载注明出处和译者。
原文 XLNet: Generalized Autoregressive Pretraining for Language Understanding
PDF版翻译以及相关资源链接 GitHub XLNet_Paper_Chinese_Translation
译者:袁宵
说明:1. 对于没有标准译法的词语保留了原单词;2. 以准确翻译为第一目标,力求保持原意;3. 欢迎读者参与到翻译中来,提出修改意见。
手机扫码阅读:
XLNet:用于语言理解的广义自回归预训练模型
摘要
由于具有双向上下文建模的能力,像BERT这样基于自动去噪的预训练语言模型比基于自回归的预训练语言模型的性能更好。然而,依赖于使用带掩
码(masks)损坏的输入,BERT忽略了掩码位置之间的依赖性,由此受到了预训练-微调阶段不一致的影响。针对这些优点和缺点,我们提出了
XLNet,一种广义自回归预训练方法,它(1)通过最大化输入序列的因式分解的所有排列的似然函数的期望来学习双向上下文,并且(2)并且通过
其自回归方法,克服了BERT的局限性。此外,XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中。实验表明,XLNet在20个任务上
常大幅度优于BERT的表现,并在18个任务中实现最先进的结果,包括问答、自然语言推理、情感分析和文档排名(注1:预训练的模型和代码可在
https://github.com/zihangdai/xlnet 获得)。
1 介绍
无监督表示学习在自然语言处理领域非常成功[7,19,24,25,10]。通常,这些方法首先在大规模的未标记文本语料库上预训练神经网络,然后在下游任
务中微调模型或对模型输出的表示进行优化。在上述这种共同的指导思想下,文献中探索了不同的无监督预训练目标。其中,自回归
autoregressive(AR)和自编码autoencoding(AE)语言模型是两个最成功的预训练目标。
AR语言模型试图用自回归模型估计文本语料库的概率分布[7,24,25]。具体而言,给定文本序列 ,AR语言模型将似然函数因式分解
为一个向前的乘积 或者一个向后的乘积 。训练参数模型(例如,神经网络)来拟合每个条件概
率分布。由于AR语言模型仅经过训练来编码单方向内容(向前或向后),因此无法有效建模深度双向上下文。然而,下游语言理解任务通常需要双
向上下文信息。这导致AR语言建模与有效预训练之间存在差距。
相比之下,基于AE的预训练模型不执行显式密度估计,而是旨在从损坏的输入重建原始数据。一个值得注意的例子是BERT[10],它是最先进的预训
练方法。给定输入tokens序列,tokens的某一部分被特殊符号[MASK]替换,并且训练该模型来从损坏的版本输入序列中恢复原始tokens。由于密度估
计不是训练目标的一部分,因此允许BERT利用双向上下文来重建原始输入。作为一个直接的好处,这将弥补前面提到的AR语言建模与有效预训练之
间存在差距,从而提高了性能。 然而,在训练期间,BERT在预训练时使用的[MASK]等人造符号在实际数据中不存在,从而导致预训练-微调的不一
致。 此外,由于预测的tokens在输入中被遮蔽,因此BERT不能像在AR语言模型中那样使用乘积规则来建模联合概率。换言之,BERT假设要预测的
tokens在给定未遮蔽的tokens的条件下彼此独立,由于自然语言高度有序且长距离依赖广泛存在于自然语言中,因此该假设简化过度了[9]。
面对现有预训练语言模型目标的优缺点,在本工作中,我们提出了XLNet,这是一种广义的自回归方法,它充分利用了AR和AE语言模型的优点,同
时避免了它们的局限性。
x = (x , ..., x )
1 T
p(x) = p(x ∣x )∏
t=1
T
t <t
p(x) = p(x ∣x )∏
t=T
1
t >t
蓝洱
- 粉丝: 23
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Yolov8改进---注意力机制:Polarized Self-Attention,效果秒杀CBAM、SE.html
- 人才网站设计-asp.net+sql-(系统源码)
- asp.net+sql人才网站设计-含系统源码
- C#应用的用户配置窗体方案
- python实现绘制爱心图形的代码
- JAVAWEB项目-校园订餐系统项目源码.zip
- flink-1.19.0-bin-scala-2.12.tgz flink-1.16.3-bin-scala-2.12.tgz
- javaWeb项目-物资管理系统项目源码.zip
- javaweb项目-物流配货项目源码.zip
- 使用C++基于颜色纹理特征的人脸活体检测实现-附项目源码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0