大模型部署框架FastLLM实现细节解析.docx_DeepseekCoder部署资源-CSDN文库

版权申诉

84 浏览量 2023-08-15 22:17:53 上传评论收藏 448KB DOCX 举报

资源推荐

资源详情

资源评论

极市导读

本文首先梳理了一下 FastLLM 的调用链和关键的数据结构，然后解析了 FastLLM 的一些

实现细节和 CPU/GPU 后端实现采用的优化技巧。

0x0. 前言

这篇文章首先梳理了一下 FastLLM 的调用链和关键的数据结构，然后解析了 FastLLM 的

一些实现细节和 CPU/GPU 后端实现采用的优化技巧。

0x1. 调用链和数据结构解析

以 chatglm-6b 的支持为例，函数入口在 https://github.com/ztxz16/fastllm/blob/mast

er/src/models/chatglm.cpp#L626 ，这里的 input 就是输入的 context（string 类

型）。然后 https://github.com/ztxz16/fastllm/blob/master/src/models/chatglm.cpp

#L633 这行代码对 input 进行 tokenizer encode 并构造好 inputIds，再构造好 attenti

onMask 之后就可以给 Forward 函数推理，拿到推理结果之后再使用 tokenizer 进行 decode

得到输出。

在这里，inputIds 和 attentionMask 都是 Data 数据类型，类比于 PyTorch 的 Tensor，

来对输入数据以及 device，shape 等信息进行统一管理。下面的代码展示了 Data 数据结

构的定义，源码在：https://github.com/ztxz16/fastllm/blob/master/include/fastllm.h

#L201-L286

class Data {

public:

bool lockInCPU = false; // 如果 lock 在 CPU 上，那么不允许移动到其余设备

WeightType weightType = WeightType::NONE; // 权重类型，NONE 代表非权重（或未知权重）

DataType dataType = DataType::FLOAT32; // 数据类型

int unitSize, unitSizeDiv = 1; // 单个元素的字节数 = unitSIze / unitSizeDiv

std::vector <int> dims; // 数据形状

从 Executor 类的定义我们可以判断它负责了在设定的 devices 上根据 opType 和输入数据

等执行 Op 的前向计算，也就是 Run 这个接口。由于 Executor 类是 FastLLM 的调度核心

实现，所以我们来详细解析一下它的实现。

namespace fastllm {

Executor::Executor() {

this->devices.clear();

#ifdef USE_CUDA

// 将一个指向 CudaDevice 类对象的指针插入到 devices 向量的末尾。

// 这里通过 new 运算符创建了一个 CudaDevice 对象，并将返回的指针进行类型转换为 BaseDevice* 类型。

this->devices.push_back((BaseDevice*) new CudaDevice());

#endif

this->devices.push_back((BaseDevice*) new CpuDevice());

}

Executor::~Executor() {

// 释放 devices 向量中的每个指针元素所占用的内存。

for (int i = 0; i < devices.size(); i++) {

delete devices[i];

}

}

void Executor::ClearDevices() {

// this->devices 指的是当前对象的 devices 成员，即指向 BaseDevice 类对象的指针向量。

this->devices.clear();

}

// 该函数用于向 devices 向量中添加一个指向 BaseDevice 类对象的指针。

void Executor::AddDevice(fastllm::BaseDevice *device) {

this->devices.push_back(device);

}

void Executor::Run(const std::string &opType, const fastllm::DataDict &datas, const fastllm::Flo

atDict &floatParams,

const fastllm::IntDict &intParams) {

// 创建一个 st 变量，用于记录函数开始执行的时间。

auto st = std::chrono::system_clock::now();

// 创建一个布尔变量 lockInCPU，用于记录是否将数据锁定在 CPU 上。

bool lockInCPU = false;

// 在第一个 for 循环中，遍历数据字典 datas，查找是否有 "___batch" 后缀的参数，

// 并根据情况设置 lockInCPU 的值。it.first 是数据字典中的键（key），it.second

// 是对应的值（value）。如果存在 "___batch" 后缀的参数，则将 lockInCPU 设置为

剩余41页未读，继续阅读

内容反馈

版权申诉

小小哭包

粉丝: 1902
资源: 3893

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip