没有合适的资源？快使用搜索试试~ 我知道了~

文库首页人工智能深度学习TensorRT-LLM应用与部署最佳实践-CSDN-webniar

TensorRT-LLM应用与部署最佳实践-CSDN-webniar

人工智能

需积分: 0 0 下载量 68 浏览量 2024-04-22 08:10:12 上传评论收藏 3.8MB PDF 举报

温馨提示

试读

24页

Nvidia官方出品，helloworld

资源推荐

资源详情

资源评论

TensorRT-LLM

应用与部署最佳实践

By Yuxin

l TensorRT-LLM简介

l TensorRT-LLM全流程初体验

Ø Hello World

Ø 准确度与性能测试

l 多卡部署大语言模型

Ø 张量并行（Tensor Parallelism）

Ø 流水线并行（Pipeline Parallelism）

l 低精度量化：降本增效

Ø 模型量化

ü INT4/INT8 weight-only

ü INT4 AWQ/GPTQ

ü INT8 SmoothQuant

ü FP8

Ø KV Cache量化

ü INT8

ü FP8

l 性能调优选项

Ø In-flight Batching

Ø Multi-block Mode

l TensorRT-LLM优化效果

Agenda

TensorRT-LLM

简介

生态定位与主要特性

CUDA

Te n s o r RT

Te n s o r RT-LLM

GPU通用编程SDK，与NVIDIA GPU紧密协同设计（co-design），能充

分发挥GPU并行计算性能。

丰富的预定义模型：

Baichuan、BART、BERT、Blip2、BLOOM、

ChatGLM、FairSeq NMT、Falcon、Flan-T5、

GPT、GPT-J、GPT-Nemo、GPT-NeoX、

InternLM、LLaMA、LLaMA-v2、Mamba、

mBART、Mistral、MPT、mT5、OPT、

Phi-1.5/Phi-2、Qwen、Replit Code、

RoBERTa、SantaCoder、StarCoder1、

StarCoder2、T5、Whisper、

持续扩充中……

多样的量化方法：

• INT4/INT8 Weight-Only

• INT4 AWQ/GPTQ

• INT8 SmoothQuant

• FP8

• INT8/FP8 KV Cache

高效的工程实现：

• In-flight Batching

• Tensor/Pipeline Parallelism

• Fused Multi Head Attention

• Multi-Block Mode

• Horizontal Fusion in Gated-MLP

• NCCL

• Cutlass

• 基于TensorRT的网络优化

• ……

深度神经网络推理（inference）优化器和运行时，专注于在 NVIDIA

GPU上快速高效地运行已经训练好的网络。优化原理包括图优化、层融

合、算子择优、量化等。

提供一组API以定义大型语言模型（LLM），并将LLM转为充分优化的

TensorRT引擎，以在NVIDIA GPU上高效执行LLM推理。此外还为流行的

LLMs做了充分优化，并支持多种量化方法，做到了高性能LLM的开箱即

用。

TensorRT-LLM

全流程初体验

概览

NeMo

HuggingFace

AMMO

Jax

TRT-LLM Checkpoint TRT-LLM Engines

使用trtllm-build命令，将checkpoint转化

为TensorRT Engines并加以优化。这一步

确定了实现层面的参数：

• max_batch_size

• max_input_len

• max_output_len

• max_beam_width

• plugin_config

• ......

注意，大量的自动优化发生在这一步，优化

与特定参数、特定硬件平台紧密相关，不建

议跨场景、跨硬件平台混用。

summarize

MMLU

dry run

benchmark

使用脚本convert_checkpoint.py或

quantize.py，将多种外部格式的模

型转为TRT-LLM定义的checkpoint

格式。这一步确定了逻辑层面的参

数：

• 量化方式

• 并行方式

• ……

your own app

使用C++/Python API做二次开发。

TensorRT-LLM内置了若干工具，也可作

为二次开发的参考：

• summarize.py做文本总结

• mmlu.py做准确度测试

• run.py运行一次推理验证模型可行性

• benchmark做性能测试

运行时可选项：

• temperature

• top K

• top P

• ……

TensorRT-LLM

全流程初体验

环境搭建（以v0.8.0为例）

l 准备源代码：

git lfs install

git clone https://github.com/NVIDIA/TensorRT-LLM.git

cd TensorRT-LLM

git checkout v0.8.0

git submodule update --init --recursive

git lfs pull

l 构建docker镜像：

make -C docker release_build

l 启动docker容器：

make -C docker release_run DOCKER_RUN_ARGS="-v /home/scratch.trt_llm_data/llm-models/:/llm-models"

Note:

此目录存放了从HuggingFace上提前下

载好的预训练模型，映射到容器内。

或者进入容器再下载也OK。

剩余23页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

repair

粉丝: 39
资源: 7

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

TensorRT-LLM应用与部署最佳实践-CSDN-webniar

RAG部署-使用TensorRT-LLM在Windows上部署检索增强生成聊天机器人RAG-优质大模型部署项目实战.zip

算法部署-使用TensorRT-LLM部署llama大模型-毕业设计-附详细性能优化+分析+实现流程教程-优质大模型部署项目实战

算法部署-使用TensorRT-LLM部署通义千问Qwen-7B大模型-附详细优化+分析流程教程-优质大模型部署项目实战.zip

tensorrt-llm-0.8.0-cp310-cp310-win-amd64.whl

tensorrt-llm-0.5.0-0-cp310-cp310-win-amd64.whl

tensorrt-llm-0.6.1-cp310-cp310-win-amd64.whl

tensorrt-llm-0.7.1-cp310-cp310-win-amd64.whl

tensorrt-llm-0.7.0-cp310-cp310-win-amd64.whl

tensorrt-llm-0.5.0.post1-cp310-cp310-win-amd64.whl

终端LLM AI模型:mlc-llm

TOKO高频固定电感-LLM2520绕线型贴片电感（Wound chip inductors）.pdf

byzer-llm-3.3-2.12-0.1.0-SNAPSHOT.jar

TOKO高频固定电感-LLM3225绕线型贴片电感（Wound chip inductors）.pdf

Byzer-LLM基于Ray技术构建，是一款覆盖大语言模型完整生命周期的解决方案，包括预训练、微调、部署及推理服务等阶段

NExT-GPT 是一个端到端通用的任意多模态大型语言模型（MM-LLM）系统

ChatGPT商业应用-LLM是星辰大海

2023大型语言模型-aigc-LLM-engineering实例代码合集.zip

基于InternLM-LLM-7B + langchain 的 烹饪小助手（Python）

大模型该被知道的技术实现-LLM

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

YOLOV5 + 双目相机实现三维测距（新版本）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

全新的SOTA模型YOLOv9

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

最新资源

基于InternLM-LLM-7B + langchain 的烹饪小助手（Python）