PaddleNLP-develop.zip_paddlenlp-develop资源-CSDN文库

共4013个文件

py：2058个

rst：366个

sh：363个

63 浏览量 2022-12-25 14:42:02 上传评论收藏 22.22MB ZIP 举报

《PaddleNLP：构建高效自然语言处理应用的利器》 PaddleNLP，全称为“飞桨自然语言处理”，是百度公司推出的一款强大的开源自然语言处理开发库。这款库以其简洁易用和功能全面的特点，深受广大开发者喜爱，尤其在人工智能领域中，对于自然语言处理任务的解决提供了极大的便利。我们来深入了解PaddleNLP的核心价值。它聚合了业界的优质预训练模型，这意味着开发者无需从零开始训练模型，可以直接利用这些经过大规模数据训练的模型，快速实现诸如文本分类、情感分析、命名实体识别、机器翻译等常见任务。这些预训练模型包括但不限于BERT、RoBERTa、ALBERT等，它们已经在多项NLP任务中取得了优秀的性能。 PaddleNLP的另一个亮点在于其开箱即用的开发体验。库中的模型经过精心设计，只需少量代码即可完成模型的加载和调用，大大降低了开发门槛，使得即便是初学者也能迅速上手。同时，它提供了详尽的文档和丰富的示例代码，帮助开发者更好地理解和应用各种模型。在模型库方面，PaddleNLP涵盖了NLP的多个场景，包括但不限于文本生成、对话系统、信息抽取、情感分析等。这为开发者提供了丰富的选择，可以根据实际需求灵活定制解决方案。同时，PaddleNLP还支持自定义数据集，开发者可以轻松地将自己的数据集导入到模型中进行训练，以适应特定领域的任务。除了基础的模型和工具，PaddleNLP还包含了一系列产业实践范例。这些案例来源于实际的应用场景，可以帮助开发者了解如何将NLP技术应用到实际业务中，如推荐系统、智能客服、知识图谱等领域，从而提升产品的智能化程度。在技术实现上，PaddleNLP基于飞桨（PaddlePaddle）深度学习框架，这是国内首个自主研发的深度学习平台，具有高效的分布式训练能力，支持GPU、CPU等多种硬件设备，确保了模型的快速训练和部署。 PaddleNLP是一个集模型库、工具和实践案例于一体的综合性解决方案，旨在推动自然语言处理技术的发展，赋能开发者快速构建出高质量的AI应用。无论是学术研究还是工业实践，PaddleNLP都是一个值得信赖的合作伙伴。通过学习和掌握PaddleNLP，开发者不仅可以提升自身在NLP领域的技能，还能在人工智能的浪潮中抢占先机。

资源推荐

资源详情

资源评论

收起资源包目录

PaddleNLP-develop.zip （4013个子文件）

NL2SQL.asdl 4KB

DuSQL.asdl 4KB

run_build_py_lib.bat 515B

run_build_cpp_lib.bat 202B

bert 20B

tokenizers.cc 52KB

tokenizer.cc 33KB

encoding.cc 22KB

normalizer.cc 22KB

tied_gather_pattern.cc 20KB

models.cc 20KB

normalizers.cc 19KB

fusion_unified_decoding_op.cc 17KB

postprocessors.cc 17KB

lattice.cc 17KB

template.cc 16KB

failure.cc 16KB

fusion_t5_decoding_op.cc 16KB

fusion_pegasus_decoding_op.cc 16KB

fusion_mbart_decoding_op.cc 16KB

fast_wordpiece.cc 15KB

fusion_bart_decoding_op.cc 15KB

fusion_force_decoding_op.cc 14KB

fusion_decoding_op.cc 14KB

added_vocabulary.cc 14KB

unigram.cc 14KB

sentencepiece_normalizer.cc 12KB

core.cc 11KB

bpe.cc 11KB

roberta.cc 10KB

pretokenizers.cc 10KB

fusion_decoder_op.cc 9KB

wordpiece.cc 9KB

pretokenizer.cc 9KB

transformer_e2e.cc 9KB

fusion_opt_op.cc 9KB

bert.cc 9KB

fusion_gpt_op.cc 9KB

transformer_e2e.cc 8KB

gpt.cc 8KB

fusion_encoder_op.cc 8KB

utils.cc 8KB

trie.cc 8KB

fusion_gptj_op.cc 8KB

utils.cc 7KB

tied_gather.cc 7KB

utils.cc 7KB

ernie_fast_tokenizer.cc 6KB

parallel_utils.cc 5KB

prevent_const_expr_folding_op.cc 5KB

utils.cc 5KB

sequence.cc 5KB

byte_level.cc 5KB

clip_fast_tokenizer.cc 5KB

test_split_pretokenizer.cc 4KB

test_roberta_postprocessor.cc 4KB

bert.cc 4KB

test_bert_tokenizer.cc 4KB

disable_attn_dropout_bwd_pattern.cc 4KB

test_wordpiece.cc 3KB

demo.cc 3KB

precompiled.cc 3KB

metaspace.cc 3KB

unicode.cc 3KB

byte_level.cc 3KB

test_ernie_fast_tokenizer.cc 3KB

bert.cc 3KB

split.cc 3KB

decoders.cc 2KB

demo.cc 2KB

test_unicode.cc 2KB

wordpiece.cc 2KB

test_normalizer.cc 2KB

strip.cc 2KB

test_bert_pretokenizer.cc 2KB

test_clip_fast_tokenizer.cc 2KB

gtest_main.cc 2KB

test_strip.cc 2KB

replace.cc 2KB

custom_nll_loss.cc 2KB

whitespace.cc 2KB

test_replace.cc 2KB

pybind.cc 2KB

base.cc 2KB

test_whitespace.cc 1KB

test_fast_wordpiece.cc 1KB

custom_checkpointoutput.cc 1KB

custom_shape_infer.cc 1KB

custom_identity.cc 1KB

custom_detach.cc 1KB

postprocessor.cc 1KB

test_utils.cc 1KB

exception.cc 1KB

cublas_handle.cc 903B

.clang-format 859B

protobuf.cmake 12KB

generic.cmake 8KB

FindNCCL.cmake 7KB

gflags.cmake 5KB

icu.cmake 5KB

共 4013 条

# ERNIE 3.0 轻量级模型 **目录** * [模型介绍](#模型介绍) * [在线蒸馏技术](#在线蒸馏技术) * [模型效果](#模型效果) * [开始运行](#开始运行) * [环境要求](#环境要求) * [数据准备](#数据准备) * [模型训练](#模型训练) * [模型预测](#模型预测) * [模型压缩](#模型压缩) * [环境依赖](#环境依赖) * [模型压缩 API 使用](#模型压缩API使用) * [压缩效果](#压缩效果) * [精度测试](#精度测试) * [性能测试](#性能测试) * [CPU 性能](#CPU性能) * [GPU 性能](#CPU性能) * [使用 FastTokenizer 加速](#使用FastTokenizer加速) * [部署](#部署) * [Python 部署](#Python部署) * [服务化部署](#服务化部署) * [Notebook教程](#Notebook教程) * [参考文献](#参考文献) <a name="模型介绍"></a> ## 模型介绍本次开源的模型是在文心大模型ERNIE 3.0, 文心大模型ERNIE 3.0 作为百亿参数知识增强的大模型，除了从海量文本数据中学习词汇、结构、语义等知识外，还从大规模知识图谱中学习。基础上通过**在线蒸馏技术**得到的轻量级模型，模型结构与 ERNIE 2.0 保持一致，相比 ERNIE 2.0 具有更强的中文效果。相关技术详解可参考文章[《解析全球最大中文单体模型鹏城-百度·文心技术细节》](https://www.jiqizhixin.com/articles/2021-12-08-9) ### 在线蒸馏技术在线蒸馏技术在模型学习的过程中周期性地将知识信号传递给若干个学生模型同时训练，从而在蒸馏阶段一次性产出多种尺寸的学生模型。相对传统蒸馏技术，该技术极大节省了因大模型额外蒸馏计算以及多个学生的重复知识传递带来的算力消耗。这种新颖的蒸馏方式利用了文心大模型的规模优势，在蒸馏完成后保证了学生模型的效果和尺寸丰富性，方便不同性能需求的应用场景使用。此外，由于文心大模型的模型尺寸与学生模型差距巨大，模型蒸馏难度极大甚至容易失效。为此，通过引入了助教模型进行蒸馏的技术，利用助教作为知识传递的桥梁以缩短学生模型和大模型表达空间相距过大的问题，从而促进蒸馏效率的提升。更多技术细节可以参考论文： - [ERNIE-Tiny: A Progressive Distillation Framework for Pretrained Transformer Compression](https://arxiv.org/abs/2106.02241) - [ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation](https://arxiv.org/abs/2112.12731) <p align="center"> <img width="644" alt="image" src="https://user-images.githubusercontent.com/1371212/168516904-3fff73e0-010d-4bef-adc1-4d7c97a9c6ff.png" title="ERNIE 3.0 Online Distillation"> </p> <a name="模型效果"></a> ### 模型效果本项目开源 **ERNIE 3.0 _Base_** 、**ERNIE 3.0 _Medium_** 、 **ERNIE 3.0 _Mini_** 、 **ERNIE 3.0 _Micro_** 、 **ERNIE 3.0 _Nano_** 五个模型： - [**ERNIE 3.0-_Base_**](https://bj.bcebos.com/paddlenlp/models/transformers/ernie_3.0/ernie_3.0_base_zh.pdparams) (_12-layer, 768-hidden, 12-heads_) - [**ERNIE 3.0-_Medium_**](https://bj.bcebos.com/paddlenlp/models/transformers/ernie_3.0/ernie_3.0_medium_zh.pdparams) (_6-layer, 768-hidden, 12-heads_) - [**ERNIE 3.0-_Mini_**](https://bj.bcebos.com/paddlenlp/models/transformers/ernie_3.0/ernie_3.0_mini_zh.pdparams) (_6-layer, 384-hidden, 12-heads_) - [**ERNIE 3.0-_Micro_**](https://bj.bcebos.com/paddlenlp/models/transformers/ernie_3.0/ernie_3.0_micro_zh.pdparams) (_4-layer, 384-hidden, 12-heads_) - [**ERNIE 3.0-_Nano_**](https://bj.bcebos.com/paddlenlp/models/transformers/ernie_3.0/ernie_3.0_nano_zh.pdparams) (_4-layer, 312-hidden, 12-heads_) 下面是 PaddleNLP 中轻量级中文模型的**效果-时延图**。横坐标表示在 IFLYTEK 数据集 (最大序列长度设置为 128) 上测试的延迟（latency，单位：ms），纵坐标是 CLUE 10 个任务上的平均精度（包含文本分类、文本匹配、自然语言推理、代词消歧、阅读理解等任务），其中 CMRC2018 阅读理解任务的评价指标是 Exact Match(EM)，其他任务的评价指标均是 Accuracy。图中越靠**左上**的模型，精度和性能水平越高。图中模型名下方标注了模型的参数量，测试环境见[性能测试](#性能测试)。 batch_size=32 时，CPU 下的效果-时延图（线程数 1 和 8）： <table> <tr> <td><a><img src="https://user-images.githubusercontent.com/26483581/175852121-2798b5c9-d122-4ac0-b4c8-da46b89b5512.png"></a></td> <td><a><img src="https://user-images.githubusercontent.com/26483581/175852129-bbe58835-8eec-45d5-a4a9-cc2cf9a3db6a.png"></a></td> </tr> </table> batch_size=1 时，CPU 下的效果-时延图（线程数 1 和 8）： <table> <tr> <td><a><img src="https://user-images.githubusercontent.com/26483581/175852106-658e18e7-705b-4f53-bad0-027281163ae3.png"></a></td> <td><a><img src="https://user-images.githubusercontent.com/26483581/175852112-4b89d675-7c95-4d75-84b6-db5a6ea95e2c.png"></a></td> </tr> </table> batch_size=32 和 1，预测精度为 FP16 时，GPU 下的效果-时延图： <table> <tr> <td><a><img src="https://user-images.githubusercontent.com/26483581/175854679-3247f42e-8716-4a36-b5c6-9ce4661b36c7.png"></a></td> <td><a><img src="https://user-images.githubusercontent.com/26483581/175854670-57878b34-c213-47ac-b620-aaaec082f435.png"></a></td> </tr> </table> 从图上可看出，ERNIE 3.0 系列轻量级模型在精度和性能上的综合表现已全面领先于 UER-py、Huawei-Noah 以及 HFL 的中文模型。且当 batch_size=1、预测精度为 FP16 时，在 GPU 上宽且浅的模型的推理性能更有优势。在 CLUE **验证集**上评测指标如下表所示： <table style="width:100%;" cellpadding="2" cellspacing="0" border="1" bordercolor="#000000"> <tbody> <tr> <td style="text-align:center;vertical-align:middle"> <span style="font-size:18px;">Arch</span> </td> <td style="text-align:center"> <span style="font-size:18px;">Model</span> </td> <td style="text-align:center"> <span style="font-size:18px;">AVG</span> </td> <td style="text-align:center"> <span style="font-size:18px;">AFQMC</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">TNEWS</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">IFLYTEK</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">CMNLI</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">OCNLI</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">CLUEWSC2020</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">CSL</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">CMRC2018</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">CHID</span> </td> <td style="text-align:center;"> <span style="font-size:18px;">C<sup>3</sup></span> </td> </tr> <tr> <td rowspan=3 align=center> 24L1024H </td> <td style="text-align:center"> <span style="font-size:18px">ERNIE 1.0-Large-cw</span> </td> <td style="text-align:center"> <span style=

评论收藏

内容反馈