没有合适的资源?快使用搜索试试~ 我知道了~
TensorRT-LLM应用与部署最佳实践-CSDN-webniar
需积分: 0 0 下载量 68 浏览量
2024-04-22
08:10:12
上传
评论
收藏 3.8MB PDF 举报
温馨提示
试读
24页
Nvidia官方出品,helloworld
资源推荐
资源详情
资源评论
1
TensorRT-LLM
应用与部署最佳实践
By Yuxin
2
l TensorRT-LLM简介
l TensorRT-LLM全流程初体验
Ø Hello World
Ø 准确度与性能测试
l 多卡部署大语言模型
Ø 张量并行(Tensor Parallelism)
Ø 流水线并行(Pipeline Parallelism)
l 低精度量化:降本增效
Ø 模型量化
ü INT4/INT8 weight-only
ü INT4 AWQ/GPTQ
ü INT8 SmoothQuant
ü FP8
Ø KV Cache量化
ü INT8
ü FP8
l 性能调优选项
Ø In-flight Batching
Ø Multi-block Mode
l TensorRT-LLM优化效果
Agenda
3
TensorRT-LLM
简介
生态定位与主要特性
CUDA
Te n s o r RT
Te n s o r RT-LLM
GPU通用编程SDK,与NVIDIA GPU紧密协同设计(co-design),能充
分发挥GPU并行计算性能。
丰富的预定义模型:
Baichuan、BART、BERT、Blip2、BLOOM、
ChatGLM、FairSeq NMT、Falcon、Flan-T5、
GPT、GPT-J、GPT-Nemo、GPT-NeoX、
InternLM、LLaMA、LLaMA-v2、Mamba、
mBART、Mistral、MPT、mT5、OPT、
Phi-1.5/Phi-2、Qwen、Replit Code、
RoBERTa、SantaCoder、StarCoder1、
StarCoder2、T5、Whisper、
持续扩充中……
多样的量化方法:
• INT4/INT8 Weight-Only
• INT4 AWQ/GPTQ
• INT8 SmoothQuant
• FP8
• INT8/FP8 KV Cache
高效的工程实现:
• In-flight Batching
• Tensor/Pipeline Parallelism
• Fused Multi Head Attention
• Multi-Block Mode
• Horizontal Fusion in Gated-MLP
• NCCL
• Cutlass
• 基于TensorRT的网络优化
• ……
深度神经网络推理(inference)优化器和运行时,专注于在 NVIDIA
GPU上快速高效地运行已经训练好的网络。优化原理包括图优化、层融
合、算子择优、量化等。
提供一组API以定义大型语言模型(LLM),并将LLM转为充分优化的
TensorRT引擎,以在NVIDIA GPU上高效执行LLM推理。此外还为流行的
LLMs做了充分优化,并支持多种量化方法,做到了高性能LLM的开箱即
用。
4
TensorRT-LLM
全流程初体验
概览
NeMo
HuggingFace
AMMO
Jax
TRT-LLM Checkpoint TRT-LLM Engines
使用trtllm-build命令,将checkpoint转化
为TensorRT Engines并加以优化。这一步
确定了实现层面的参数:
• max_batch_size
• max_input_len
• max_output_len
• max_beam_width
• plugin_config
• ......
注意,大量的自动优化发生在这一步,优化
与特定参数、特定硬件平台紧密相关,不建
议跨场景、跨硬件平台混用。
summarize
MMLU
dry run
benchmark
使用脚本convert_checkpoint.py或
quantize.py,将多种外部格式的模
型转为TRT-LLM定义的checkpoint
格式。这一步确定了逻辑层面的参
数:
• 量化方式
• 并行方式
• ……
your own app
使用C++/Python API做二次开发。
TensorRT-LLM内置了若干工具,也可作
为二次开发的参考:
• summarize.py做文本总结
• mmlu.py做准确度测试
• run.py运行一次推理验证模型可行性
• benchmark做性能测试
运行时可选项:
• temperature
• top K
• top P
• ……
5
TensorRT-LLM
全流程初体验
环境搭建(以v0.8.0为例)
l 准备源代码:
git lfs install
git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
git checkout v0.8.0
git submodule update --init --recursive
git lfs pull
l 构建docker镜像:
make -C docker release_build
l 启动docker容器:
make -C docker release_run DOCKER_RUN_ARGS="-v /home/scratch.trt_llm_data/llm-models/:/llm-models"
Note:
此目录存放了从HuggingFace上提前下
载好的预训练模型,映射到容器内。
或者进入容器再下载也OK。
剩余23页未读,继续阅读
资源评论
repair
- 粉丝: 39
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功