* [ERNIE Slim 数据蒸馏](#ernie-slim-数据蒸馏)
* [ERNIE数据蒸馏三步](#ernie数据蒸馏三步)
* [数据增强](#数据增强)
* [使用教程](#使用教程)
* [效果验证](#效果验证)
* [Case#1 用户提供“无标注数据”](#case1)
* [Case#2 用户未提供“无标注数据”](#case2)
# ERNIE Slim 数据蒸馏
在ERNIE强大的语义理解能力背后,是需要同样强大的算力才能支撑起如此大规模模型的训练和预测。很多工业应用场景对性能要求较高,若不能有效压缩则无法实际应用。
![ernie_distill](../../.metas/ernie_distill.png)
因此,如上图所示,我们基于[数据蒸馏技术](https://arxiv.org/pdf/1712.04440.pdf)构建了**ERNIE Slim数据蒸馏系统**。它的原理是通过数据作为桥梁,将ERNIE模型的知识迁移至小模型,以达到损失很小的效果却能达到上千倍的预测速度提升的效果。
### ERNIE数据蒸馏三步
- **Step 1**. 使用ERNIE模型对输入标注数据对进行fine-tune,得到Teacher Model
- **Step 2**. 使用ERNIE Service对以下无监督数据进行预测:
1. 用户提供的大规模无标注数据,需与标注数据同源
2. 对标注数据进行数据增强,具体增强策略见下节
3. 对无标注数据和数据增强数据进行一定比例混合
- **Step 3.** 使用步骤2的数据训练出Student Model
### 数据增强
目前采用三种[数据增强策略](https://arxiv.org/pdf/1903.12136.pdf)策略,对于不用的任务可以特定的比例混合。三种数据增强策略包括:
1. 添加噪声:对原始样本中的词,以一定的概率(如0.1)替换为”UNK”标签
2. 同词性词替换:对原始样本中的所有词,以一定的概率(如0.1)替换为本数据集钟随机一个同词性的词
3. N-sampling:从原始样本中,随机选取位置截取长度为m的片段作为新的样本,其中片段的长度m为0到原始样本长度之间的随机值
# 使用教程
我们采用上述3种增强策略制作了chnsenticorp的增强数据:增强后的数据为原训练数据的10倍(96000行),可以从[这里](https://ernie-github.cdn.bcebos.com/data-chnsenticorp-distill.tar.gz)下载。即可执行下面的脚本开始蒸馏。
```shell
python ./distill/distill.py
```
# 效果验证
我们将实际应用场景分类为两种:
### Case#1 用户提供“无标注数据”<a name="case1"></a>
|模型 | 评论低质识别【分类 \| ACC】 | 中文情感【分类 \| ACC】 |问题识别【分类 \| ACC】|搜索问答匹配【匹配 \| 正逆序】|
|---|---|---|---|---|
|ERNIE-Finetune | 90.6% | 96.2% | 97.5% | 4.25 |
|非ERNIE基线(BOW)| 80.8% | 94.7% | 93.0% | 1.83 |
|**+ 数据蒸馏** | 87.2% | 95.8% | 96.3% | 3.30 |
### Case#2 用户未提供“无标注数据”(通过数据增强生成数据)<a name="case2"></a>
|模型 |ChnSentiCorp |
|---|---|
|ERNIE-Finetune |95.4% |
|非ERNIE基线(BOW)|90.1%|
|**+ 数据蒸馏** |91.4%|
|非ERNIE基线(LSTM)|91.2%|
|**+ 数据蒸馏**|93.9%|
没有合适的资源?快使用搜索试试~ 我知道了~
基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务
共132个文件
py:59个
pod:22个
exc:8个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 153 浏览量
2023-11-10
11:39:58
上传
评论
收藏 2.29MB ZIP 举报
温馨提示
ERNIE 2.0 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一
资源推荐
资源详情
资源评论
收起资源包目录
基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务 (132个子文件)
inference.cc 6KB
inference.cc 6KB
WordNet-2.0.exc.db 12KB
noun.exc 109KB
verb.exc 81KB
noun.exc 37KB
verb.exc 37KB
adj.exc 22KB
adj.exc 20KB
adv.exc 85B
adv.exc 85B
.gitignore 62B
LICENSE 11KB
README.md 3KB
README.md 3KB
README.md 2KB
README.md 2KB
README.md 2KB
README.md 421B
README.md 206B
ROUGE-1.5.5.pl 101KB
runROUGE-test.pl 3KB
buildExeptionDB.pl 679B
buildExeptionDB.pl 679B
DOM.pm 108KB
BuildDOM.pm 7KB
RegExp.pm 6KB
NamedNodeMap.pm 5KB
DOMException.pm 2KB
PerlSAX.pm 940B
NodeList.pm 695B
ERNIE_milestone_en.png 792KB
ERNIE_milestone_zh.png 746KB
ernie_distill.png 174KB
ernie-vil.png 5KB
Node.pod 13KB
Document.pod 6KB
DocumentType.pod 5KB
Element.pod 5KB
NamedNodeMap.pod 4KB
CharacterData.pod 3KB
Parser.pod 3KB
Attr.pod 3KB
DocumentFragment.pod 2KB
Text.pod 2KB
EntityReference.pod 1KB
CDATASection.pod 1KB
AttlistDecl.pod 1KB
Entity.pod 1KB
NodeList.pod 1KB
Notation.pod 874B
ProcessingInstruction.pod 802B
XMLDecl.pod 686B
DOMImplementation.pod 665B
AttDef.pod 662B
ElementDecl.pod 529B
Comment.pod 438B
feature.proto 1KB
interface.proto 1KB
example.proto 946B
modeling_ernie.py 30KB
trainer.py 24KB
metrics.py 23KB
bs_pyrouge.py 23KB
mrc_metrics.py 21KB
monitored_executor.py 18KB
functional.py 18KB
feature_pb2.py 17KB
finetune_seq2seq.py 16KB
decode.py 16KB
feature_column.py 16KB
pretrain.py 14KB
pretrain_static.py 14KB
eval.py 13KB
mrc_reader.py 11KB
hooks.py 10KB
tokenizing_ernie.py 10KB
finetune_ner.py 10KB
finetune_classifier.py 10KB
distill.py 10KB
finetune_classifier_static.py 9KB
finetune_mrc.py 9KB
finetune_sentiment_analysis.py 8KB
interface_pb2.py 7KB
finetune_classifier_distributed.py 7KB
exporter.py 7KB
distribution.py 6KB
server.py 6KB
ckpt_inspector.py 5KB
make_pretrain_data.py 5KB
example_pb2.py 5KB
client.py 4KB
utils.py 4KB
util.py 4KB
types.py 3KB
optimization.py 3KB
functional.py 3KB
file_utils.py 2KB
model.py 2KB
feature_column.py 2KB
共 132 条
- 1
- 2
资源评论
Java程序员-张凯
- 粉丝: 1w+
- 资源: 6705
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于ARM的指令调度和延迟分支
- 基于Vue和TypeScript的极简聊天应用设计源码 - HasChat
- 基于Vue2全家桶和Zcool数据的图片收集网站设计源码 - cool-picture
- 基于C和C++的二维绘制工具设计源码 - DrawPro
- Object.defineProperty 的 IE 补丁object-defineproperty-ie-master.zip
- 整卷预览.mhtml
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- 基于Javascript的结婚请帖设计源码 - Invitation
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功