vanilla_vae.zip资源-CSDN文库

共2个文件

py：2个

版权申诉

150 浏览量 2023-08-26 10:15:45 上传评论收藏 2KB ZIP 举报

《Pytorch实现Vanilla VAE详解》在深度学习领域，变分自编码器（Variational Autoencoder，简称VAE）是一种广泛应用的生成模型。它结合了自编码器的无监督学习能力与贝叶斯推理的思想，能学习到数据的潜在分布，并生成新的样本。在本文中，我们将深入探讨一个基于Pytorch实现的 Vanilla VAE 模型，包括其基本原理、架构以及代码实现。 VAE 是一种基于概率的自编码器，它的目标是通过学习一个低维潜在空间来捕捉输入数据的复杂分布。在这个潜在空间中，每个点代表一个潜在变量的向量，这个向量可以用来生成新的数据样本。在训练过程中，VAE 使用了重构损失和KL散度两个部分的损失函数，以同时优化编码器和解码器的性能。 Vanilla VAE 的核心思想是将编码器的输出看作是高斯分布的均值和方差，然后在解码器中采样这些分布以生成重构的输入。Pytorch 中，我们可以定义一个神经网络模型，包含编码器和解码器两个部分。编码器负责将输入数据映射到潜在空间，解码器则根据潜在向量重构原始数据。在"vanilla_vae.py"中，我们可以预期看到以下关键部分： 1. **模型定义**：编码器和解码器通常由多层全连接或卷积神经网络构成。编码器的输出层会为每个潜在变量生成均值和方差，解码器则接收这些采样的潜在向量并输出重构的输入数据。 2. **损失函数**：损失函数通常包含两部分，第一部分是重构损失（如均方误差或交叉熵），衡量解码器重构数据的准确性；第二部分是KL散度，用于促使潜在分布接近标准正态分布。 3. **训练过程**：在Pytorch中，模型的训练涉及前向传播、损失计算和反向传播更新权重。在每个训练步骤中，输入数据会通过编码器得到潜在向量，然后进行采样并传递给解码器进行重构。计算损失后，使用优化器更新模型参数。 4. **数据预处理和处理**：在实际应用中，数据可能需要进行标准化或归一化处理，以便更好地适应模型。此外，对于图像数据，可能还需要进行展平或颜色通道的处理。 5. **模型评估和生成**：在训练完成后，VAE可以用于生成新的数据。通过随机抽样潜在空间中的点，解码器可以生成与训练数据类似的新样本。 "types_.py"文件可能包含了定义数据类型或者辅助函数，比如定义数据加载器，用于批量读取和预处理数据。 "vanilla_vae.zip"包含了一个基础的Pytorch实现的Vanilla VAE模型，提供了从数据处理到模型训练和生成的完整流程。通过理解和实践这个模型，开发者能够深入理解VAE的工作机制，以及如何在Pytorch框架下实现这一模型。这不仅有助于增强对生成模型的理解，也为实际项目开发提供了参考。

资源推荐

资源详情

资源评论

收起资源包目录

vanilla_vae.zip （2个子文件）

types_.py 133B

vanilla_vae.py 6KB

import torch from models import BaseVAE from torch import nn from torch.nn import functional as F from .types_ import * class VanillaVAE(BaseVAE): def __init__(self, in_channels: int, latent_dim: int, hidden_dims: List = None, **kwargs) -> None: super(VanillaVAE, self).__init__() self.latent_dim = latent_dim #128 z modules = [] if hidden_dims is None: hidden_dims = [32, 64, 128, 256, 512] # Build Encoder for h_dim in hidden_dims: modules.append( nn.Sequential( nn.Conv2d(in_channels, out_channels=h_dim, kernel_size= 3, stride= 2, padding = 1), nn.BatchNorm2d(h_dim), nn.LeakyReLU()) ) in_channels = h_dim self.encoder = nn.Sequential(*modules) self.fc_mu = nn.Linear(hidden_dims[-1]*4, latent_dim) self.fc_var = nn.Linear(hidden_dims[-1]*4, latent_dim) # Build Decoder modules = [] self.decoder_input = nn.Linear(latent_dim, hidden_dims[-1] * 4) hidden_dims.reverse() for i in range(len(hidden_dims) - 1): modules.append( nn.Sequential( nn.ConvTranspose2d(hidden_dims[i], hidden_dims[i + 1], kernel_size=3, stride = 2, padding=1, output_padding=1), nn.BatchNorm2d(hidden_dims[i + 1]), nn.LeakyReLU()) ) self.decoder = nn.Sequential(*modules) self.final_layer = nn.Sequential( nn.ConvTranspose2d(hidden_dims[-1], hidden_dims[-1], kernel_size=3, stride=2, padding=1, output_padding=1), nn.BatchNorm2d(hidden_dims[-1]), nn.LeakyReLU(), nn.Conv2d(hidden_dims[-1], out_channels= 3, kernel_size= 3, padding= 1), nn.Tanh()) def encode(self, input: Tensor) -> List[Tensor]: """ Encodes the input by passing through the encoder network and returns the latent codes. :param input: (Tensor) Input tensor to encoder [N x C x H x W] :return: (Tensor) List of latent codes """ # print(input.shape) #torch.Size([128, 3, 64, 64]) result = self.encoder(input) #([128, 512, 2, 2]) #start_dim 参数指定了从哪个维度开始展平。在这个例子中，start_dim=1 表示从第 1 维开始展平 result = torch.flatten(result, start_dim=1) #torch.Size([128, 2048]) # Split the result into mu and var components # of the latent Gaussian distribution mu = self.fc_mu(result) #torch.Size([128, 128]) log_var = self.fc_var(result) #torch.Size([128, 128]) return [mu, log_var] def decode(self, z: Tensor) -> Tensor: """ Maps the given latent codes onto the image space. :param z: (Tensor) [B x D] :return: (Tensor) [B x C x H x W] """ result = self.decoder_input(z) #torch.Size([128, 2048]) result = result.view(-1, 512, 2, 2) result = self.decoder(result) #torch.Size([128, 32, 32, 32]) result = self.final_layer(result) #torch.Size([128, 3, 64, 64]) return result def reparameterize(self, mu: Tensor, logvar: Tensor) -> Tensor: """ 为了能够传导梯度必须reparamterize Reparameterization trick to sample from N(mu, var) from N(0,1). :param mu: (Tensor) Mean of the latent Gaussian [B x D] :param logvar: (Tensor) Standard deviation of the latent Gaussian [B x D] :return: (Tensor) [B x D] """ std = torch.exp(0.5 * logvar) #torch.Size([128, 128]) eps = torch.randn_like(std) #，用于生成与输入张量 std 形状相同的、服从标准正态分布的随机张量。 return eps * std + mu def forward(self, input: Tensor, **kwargs) -> List[Tensor]: mu, log_var = self.encode(input) #print(mu.shape),print(log_var.shape) #torch.Size([128, 128]) torch.Size([128, 128]) z = self.reparameterize(mu, log_var) return [self.decode(z), input, mu, log_var] def loss_function(self, *args, **kwargs) -> dict: """ Computes the VAE loss function. KL(N(\mu, \sigma), N(0, 1)) = \log \frac{1}{\sigma} + \frac{\sigma^2 + \mu^2}{2} - \frac{1}{2} :param args: :param kwargs: :return: """ recons = args[0] input = args[1] mu = args[2] log_var = args[3] kld_weight = kwargs['M_N'] # Account for the minibatch samples from the dataset # print(kld_weight) #1.0 beta recons_loss =F.mse_loss(recons, input) #均方误差损失（Mean Squared Error，MSE）。 kld_loss = torch.mean(-0.5 * torch.sum(1 + log_var - mu ** 2 - log_var.exp(), dim = 1), dim = 0) loss = recons_loss + kld_weight * kld_loss return {'loss': loss, 'Reconstruction_Loss':recons_loss.detach(), 'KLD':-kld_loss.detach()} def sample(self, num_samples:int, current_device: int, **kwargs) -> Tensor: """ Samples from the latent space and return the corresponding image space map. :param num_samples: (Int) Number of samples :param current_device: (Int) Device to run the model :return: (Tensor) """ z = torch.randn(num_samples, self.latent_dim) z = z.to(current_device) samples = self.decode(z) return samples def generate(self, x: Tensor, **kwargs) -> Tensor: """ Given an input image x, returns the reconstructed image :param x: (Tensor) [B x C x H x W] :return: (Tensor) [B x C x H x W] """ return self.forward(x)[0]

评论收藏

内容反馈

版权申诉