基于pytorch后量化（mnist分类）浮点训练vs多bit后量化vs多bit量化感知训练效果对比

共5个文件

py：5个

版权申诉

pytorch

python

机器学习

人工智能

5星 · 超过95%的资源 98 浏览量 2022-03-06 13:05:47 上传评论收藏 9KB ZIP 举报

在本文中，我们将深入探讨基于PyTorch的后量化技术在MNIST手写数字分类任务中的应用，并比较浮点训练、多bit后量化以及多bit量化感知训练的效果差异。MNIST是一个广泛使用的数据集，包含60,000个训练样本和10,000个测试样本，用于识别0到9的手写数字。浮点训练是深度学习模型的标准训练方式，其中权重和激活值通常以32位浮点数表示。这种方式能够提供高度的精度，但代价是较高的计算资源和内存需求。对于嵌入式设备或资源受限的环境，这种方法可能不切实际。然后，我们转向后量化，这是一种将训练好的浮点模型转换为低bit表示的技术，以减少模型的大小和计算复杂性。在多bit后量化中，模型的权重和激活值被转换为更低bit的整数，例如8bit或4bit。尽管这会导致一定程度的精度损失，但在保持可接受性能的同时显著降低了模型的计算需求。多bit量化感知训练（Quantization-Aware Training, QAT）是一种更为先进的策略，它在训练过程中模拟量化的副作用。在QAT中，模型在训练时使用模拟的低bit操作，使得网络能够适应这种量化带来的不精确性。这种方法通常能够获得比直接后量化更好的精度保持，因为它允许模型学习量化误差的鲁棒性。在MNIST分类任务中，我们可能会发现以下观察结果： 1. 浮点训练模型通常会达到非常高的准确率，接近或超过99%。然而，这样的模型在资源有限的环境中可能难以部署。 2. 多bit后量化模型的准确率通常会下降，特别是在bit数较少（如4bit）时。这种下降可能是由于量化解的不精确性和信息丢失导致的。 3. 使用多bit量化感知训练的模型则可能在保持较低bit数的同时，仍能保持与浮点模型相近的准确率。这是因为QAT使模型能够适应量化过程，从而减少量化带来的负面影响。在实践中，我们需要在模型的精度和资源效率之间找到一个平衡点。对于某些应用，即使牺牲一点精度，也能通过量化实现更高效的部署。为了选择最佳的量化策略，我们通常会进行大量的实验，包括不同bit数的选择、量化策略的调整以及模型结构的优化。在提供的压缩包文件中，可能包含了实现这些不同训练方法的代码示例、训练过程的详细日志以及各个模型在MNIST测试集上的性能指标。通过分析这些数据，我们可以进一步理解每种方法的优缺点，并为特定应用场景选择最合适的量化方案。此外，这些代码和结果也可以作为研究和教育的宝贵资源，帮助开发者更好地理解和掌握PyTorch中的量化技术。

资源详情

资源评论

资源推荐

收起资源包目录

基于pytorch后量化（mnist分类）.zip （5个子文件）

基于pytorch后量化（mnist分类）

train.py 3KB

module.py 14KB

post_training_quantize.py 3KB

model.py 4KB

function.py 302B

import math import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from torch.autograd import Variable from function import FakeQuantize def calcScaleZeroPoint(min_val, max_val, num_bits=8): qmin = 0. qmax = 2. ** num_bits - 1. scale = (max_val - min_val) / (qmax - qmin) zero_point = qmax - max_val / scale if zero_point < qmin: zero_point = torch.tensor([qmin], dtype=torch.float32).to(min_val.device) elif zero_point > qmax: # zero_point = qmax zero_point = torch.tensor([qmax], dtype=torch.float32).to(max_val.device) zero_point.round_() return scale, zero_point def quantize_tensor(x, scale, zero_point, num_bits=8, signed=False): if signed: qmin = - 2. ** (num_bits - 1) qmax = 2. ** (num_bits - 1) - 1 else: qmin = 0. qmax = 2. ** num_bits - 1. q_x = zero_point + x / scale q_x.clamp_(qmin, qmax).round_() return q_x def dequantize_tensor(q_x, scale, zero_point): return scale * (q_x - zero_point) def search(M): P = 7000 n = 1 while True: Mo = int(round(2 ** n * M)) # Mo approx_result = Mo * P >> n result = int(round(M * P)) error = approx_result - result print("n=%d, Mo=%f, approx=%d, result=%d, error=%f" % \ (n, Mo, approx_result, result, error)) if math.fabs(error) < 1e-9 or n >= 22: return Mo, n n += 1 class QParam(nn.Module): def __init__(self, num_bits=8): super(QParam, self).__init__() self.num_bits = num_bits scale = torch.tensor([], requires_grad=False) zero_point = torch.tensor([], requires_grad=False) min = torch.tensor([], requires_grad=False) max = torch.tensor([], requires_grad=False) self.register_buffer('scale', scale) self.register_buffer('zero_point', zero_point) self.register_buffer('min', min) self.register_buffer('max', max) def update(self, tensor): if self.max.nelement() == 0 or self.max.data < tensor.max().data: self.max.data = tensor.max().data self.max.clamp_(min=0) if self.min.nelement() == 0 or self.min.data > tensor.min().data: self.min.data = tensor.min().data self.min.clamp_(max=0) self.scale, self.zero_point = calcScaleZeroPoint(self.min, self.max, self.num_bits) def quantize_tensor(self, tensor): return quantize_tensor(tensor, self.scale, self.zero_point, num_bits=self.num_bits) def dequantize_tensor(self, q_x): return dequantize_tensor(q_x, self.scale, self.zero_point) def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs): key_names = ['scale', 'zero_point', 'min', 'max'] for key in key_names: value = getattr(self, key) value.data = state_dict[prefix + key].data state_dict.pop(prefix + key) def __str__(self): info = 'scale: %.10f ' % self.scale info += 'zp: %d ' % self.zero_point info += 'min: %.6f ' % self.min info += 'max: %.6f' % self.max return info class QModule(nn.Module): def __init__(self, qi=True, qo=True, num_bits=8): super(QModule, self).__init__() if qi: self.qi = QParam(num_bits=num_bits) if qo: self.qo = QParam(num_bits=num_bits) def freeze(self): pass def quantize_inference(self, x): raise NotImplementedError('quantize_inference should be implemented.') class QConv2d(QModule): def __init__(self, conv_module, qi=True, qo=True, num_bits=8): super(QConv2d, self).__init__(qi=qi, qo=qo, num_bits=num_bits) self.num_bits = num_bits self.conv_module = conv_module self.qw = QParam(num_bits=num_bits) def freeze(self, qi=None, qo=None): if hasattr(self, 'qi') and qi is not None: raise ValueError('qi has been provided in init function.') if not hasattr(self, 'qi') and qi is None: raise ValueError('qi is not existed, should be provided.') if hasattr(self, 'qo') and qo is not None: raise ValueError('qo has been provided in init function.') if not hasattr(self, 'qo') and qo is None: raise ValueError('qo is not existed, should be provided.') if qi is not None: self.qi = qi if qo is not None: self.qo = qo self.M = self.qw.scale * self.qi.scale / self.qo.scale self.conv_module.weight.data = self.qw.quantize_tensor(self.conv_module.weight.data) self.conv_module.weight.data = self.conv_module.weight.data - self.qw.zero_point self.conv_module.bias.data = quantize_tensor(self.conv_module.bias.data, scale=self.qi.scale * self.qw.scale, zero_point=0, num_bits=32, signed=True) def forward(self, x): if hasattr(self, 'qi'): self.qi.update(x) x = FakeQuantize.apply(x, self.qi) self.qw.update(self.conv_module.weight.data) x = F.conv2d(x, FakeQuantize.apply(self.conv_module.weight, self.qw), self.conv_module.bias, stride=self.conv_module.stride, padding=self.conv_module.padding, dilation=self.conv_module.dilation, groups=self.conv_module.groups) if hasattr(self, 'qo'): self.qo.update(x) x = FakeQuantize.apply(x, self.qo) return x def quantize_inference(self, x): x = x - self.qi.zero_point x = self.conv_module(x) x = self.M * x x.round_() x = x + self.qo.zero_point x.clamp_(0., 2.**self.num_bits-1.).round_() return x class QLinear(QModule): def __init__(self, fc_module, qi=True, qo=True, num_bits=8): super(QLinear, self).__init__(qi=qi, qo=qo, num_bits=num_bits) self.num_bits = num_bits self.fc_module = fc_module self.qw = QParam(num_bits=num_bits) def freeze(self, qi=None, qo=None): if hasattr(self, 'qi') and qi is not None: raise ValueError('qi has been provided in init function.') if not hasattr(self, 'qi') and qi is None: raise ValueError('qi is not existed, should be provided.') if hasattr(self, 'qo') and qo is not None: raise ValueError('qo has been provided in init function.') if not hasattr(self, 'qo') and qo is None: raise ValueError('qo is not existed, should be provided.') if qi is not None: self.qi = qi if qo is not None: self.qo = qo self.M = self.qw.scale * self.qi.scale / self.qo.scale self.fc_module.weight.data = self.qw.quantize_tensor(self.fc_module.weight.data) self.fc_module.weight.data = self.fc_module.weight.data - self.qw.zero_point self.fc_module.bias.data = quantize_tensor(self.fc_module.bias.data, scale=self.qi.scale * self.qw.scale, zero_point=0, num_bits=32, signed=True) def forward(self, x): if hasattr(self, 'qi'): self.qi.update(x) x = FakeQuantize.apply(x, self.qi) self.qw.update(self.fc_module.weight.data) x = F.linear(x, FakeQuantize.apply(self.fc_module.weight, self.qw), self.fc_module.bias) if hasattr(self, 'qo'): self.qo.update(x) x = FakeQuantize.apply(x, self.qo) return x def quantize_inference(self, x): x = x - self.qi.zero_point x = self.fc_module(x) x = self.M * x x.round_() x = x + self.qo.zero_point x.clamp_(0., 2.**self.num_bits-1.).round_() return x class QReLU(QModule): def __init__(self, q