[CVPR2022Oral]PyTorch重新实现“MAXIM：用于图像处理的多轴MLP”，带有训练代码.zip资源-CSDN文库

共135个文件

py：67个

png：25个

md：12个

版权申诉

185 浏览量 2023-04-28 13:46:04 上传评论收藏 10.79MB ZIP 举报

：“MAXIM：用于图像处理的多轴MLP”的PyTorch重现实现，附带训练代码：本资源是CVPR 2022 Oral论文“MAXIM：多轴MLP（Multi-axis MLP）”的PyTorch版本重新实现，包含了完整的训练代码。MAXIM是一种新颖的神经网络架构，特别针对图像处理任务进行了优化，旨在打破传统的卷积神经网络（CNN）和Transformer在处理视觉数据时的局限性。【正文】： MAXIM（Multi-axis MLP）是深度学习领域的一项创新，它探索了在没有传统卷积或自注意力机制的情况下处理图像数据的新途径。传统的卷积神经网络（CNN）依赖于局部感受野和权重共享来提取特征，而Transformer模型则通过自注意力机制捕捉全局上下文信息。然而，这两种方法都有其局限性，例如CNN对局部结构的过度依赖以及Transformer在计算效率上的挑战。 MAXIM提出了一种全新的架构，它结合了多轴的全连接层，能够同时考虑局部和全局信息。这一设计的核心在于“轴”（axis）的概念，每个轴对应于不同的空间、通道和时间维度，使得网络可以独立地处理这些维度上的特征。通过这种方式，MAXIM能够在不牺牲效率的前提下，捕获复杂的图像模式，从而达到与CNN和Transformer相当甚至超越的效果。 PyTorch实现提供了对MAXIM架构的详细编码，这对于研究人员和开发者来说是一个宝贵的资源，他们可以借此深入理解模型的工作原理，并在自己的项目中应用或调整。训练代码的提供使得复现论文中的实验结果成为可能，同时也为新研究提供了一个起点，可以在MAXIM的基础上进行进一步的优化和改进。在使用这个PyTorch重实现之前，你需要了解一些基本的PyTorch概念，如模块（Module）、损失函数（Loss Function）、优化器（Optimizer）以及数据加载器（DataLoader）。同时，为了运行训练代码，你需要准备相应的数据集，比如ImageNet等，以及适当的硬件资源，因为训练大规模的深度学习模型通常需要大量的GPU内存和计算能力。此外，MAXIM模型的训练过程可能涉及到超参数调整，包括学习率、批次大小、权重衰减等。通过试验和错误，你可以找到最优的超参数组合，以达到最佳的性能指标，例如Top-1精度。在实际应用中，还可以考虑使用模型剪枝、量化和蒸馏等技术来进一步优化模型的效率。 “MAXIM：多轴MLP”的PyTorch实现是一个深入了解和探索新型神经网络架构的好机会，它挑战了传统的图像处理方法，为深度学习社区带来了新的思考方向。通过使用这个重实现，研究人员和开发者不仅能够加深对MAXIM的理解，还能够推动未来视觉任务处理的创新。

资源推荐

资源详情

资源评论

收起资源包目录

[CVPR2022Oral]PyTorch重新实现“MAXIM：用于图像处理的多轴MLP”，带有训练代码.zip （135个子文件）

setup.cfg 558B

.gitignore 73B

0.jpg 598KB

0.jpg 346KB

LICENSE 11KB

evaluate_PSNR_SSIM.m 8KB

evaluate_gopro_hide.m 1KB

evaluate_sidd.m 708B

README.md 15KB

README.md 5KB

README.md 2KB

README.md 1KB

INSTALL.md 1KB

README.md 1KB

README.md 880B

README.md 719B

README.md 134B

README.md 133B

niqe_pris_params.npz 12KB

1fromGOPR1096.MP4.png 948KB

109fromGOPR1096.MP4.png 938KB

1fromGOPR0950.png 904KB

110fromGOPR1087.MP4.png 844KB

55.png 588KB

a4541-DSC_0040-2.png 578KB

55.png 526KB

overview.png 385KB

1.png 338KB

748.png 327KB

111.png 311KB

1444_10.png 293KB

1.png 284KB

0010_0.95_0.16.png 269KB

1.png 268KB

0014_0.8_0.12.png 257KB

0048_0.9_0.2.png 232KB

15.png 222KB

1440_10.png 185KB

0039_04.png 166KB

15.png 164KB

0003_30.png 161KB

0003_0.8_0.2.png 161KB

0011_23.png 156KB

0013_19.png 134KB

Maxim_arch.py 81KB

maxim.py 80KB

maxim_torch.py 80KB

base_model.py 14KB

data_util.py 14KB

paired_image_dataset.py 14KB

matlab_functions.py 13KB

video_test_dataset.py 12KB

image_restoration_model.py 12KB

train.py 12KB

restormer_arch.py 11KB

psnr_ssim.py 10KB

reds_dataset.py 10KB

face_util.py 9KB

transforms.py 9KB

arch_util.py 9KB

niqe.py 8KB

lr_scheduler.py 8KB

demo.py 8KB

img_util.py 7KB

lmdb_util.py 7KB

file_client.py 6KB

flow_util.py 6KB

logger.py 6KB

download_data.py 6KB

misc.py 6KB

setup.py 5KB

create_lmdb.py 5KB

__init__.py 5KB

vimeo90k_dataset.py 5KB

losses.py 4KB

jax2torch.py 4KB

test_gaussian_gray_denoising.py 4KB

test_gaussian_color_denoising.py 4KB

evaluate_realblur.py 4KB

download_data.py 4KB

generate_patches_gopro.py 4KB

options.py 4KB

bundle_submissions.py 4KB

fid.py 3KB

test_real_denoising_dnd.py 3KB

prefetch_dataloader.py 3KB

utils.py 3KB

test.py 3KB

loss_util.py 3KB

test_real_denoising_sidd.py 3KB

dist_util.py 3KB

single_image_dataset.py 2KB

evaluate_gaussian_gray_denoising.py 2KB

evaluate_gaussian_color_denoising.py 2KB

ffhq_dataset.py 2KB

共 135 条

# [MAXIM](https://arxiv.org/abs/2201.02973): Multi-Axis MLP for Image Processing (CVPR 2022 Oral) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-hide-trained-on-gopro)](https://paperswithcode.com/sota/deblurring-on-hide-trained-on-gopro?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-gopro)](https://paperswithcode.com/sota/deblurring-on-gopro?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-realblur-j-1)](https://paperswithcode.com/sota/deblurring-on-realblur-j-1?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-realblur-r)](https://paperswithcode.com/sota/deblurring-on-realblur-r?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-realblur-j-trained-on-gopro)](https://paperswithcode.com/sota/deblurring-on-realblur-j-trained-on-gopro?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/deblurring-on-realblur-r-trained-on-gopro)](https://paperswithcode.com/sota/deblurring-on-realblur-r-trained-on-gopro?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/low-light-image-enhancement-on-lol)](https://paperswithcode.com/sota/low-light-image-enhancement-on-lol?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/photo-retouching-on-mit-adobe-5k)](https://paperswithcode.com/sota/photo-retouching-on-mit-adobe-5k?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/single-image-deraining-on-rain100h)](https://paperswithcode.com/sota/single-image-deraining-on-rain100h?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/single-image-deraining-on-rain100l)](https://paperswithcode.com/sota/single-image-deraining-on-rain100l?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/single-image-deraining-on-test100)](https://paperswithcode.com/sota/single-image-deraining-on-test100?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/single-image-deraining-on-test2800)](https://paperswithcode.com/sota/single-image-deraining-on-test2800?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/single-image-deraining-on-test1200)](https://paperswithcode.com/sota/single-image-deraining-on-test1200?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/image-denoising-on-sidd)](https://paperswithcode.com/sota/image-denoising-on-sidd?p=maxim-multi-axis-mlp-for-image-processing) [![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/maxim-multi-axis-mlp-for-image-processing/image-denoising-on-dnd)](https://paperswithcode.com/sota/image-denoising-on-dnd?p=maxim-multi-axis-mlp-for-image-processing) This repo is a PyTorch re-implementation of [**CVPR 2022 Oral**] paper: ["**MAXIM**: Multi-Axis MLP for Image Processing"](https://arxiv.org/abs/2201.02973) by [Zhengzhong Tu](https://www.linkedin.com/in/vztu/), [Hossein Talebi](https://scholar.google.com/citations?hl=en&user=UOX9BigAAAAJ), [Han Zhang](https://sites.google.com/view/hanzhang), [Feng Yang](https://sites.google.com/view/feng-yang), [Peyman Milanfar](https://sites.google.com/view/milanfarhome/), [Alan Bovik](https://www.ece.utexas.edu/people/faculty/alan-bovik), and [Yinxiao Li](https://scholar.google.com/citations?user=kZsIU74AAAAJ&hl=en) Google Research, University of Texas at Austin *__Disclaimer__: This repo is currently working in progress. No timelines are guaranteed.* #### News - **April 12, 2022:** Initialize PyTorch repo for MAXIM. - **March 29, 2022:** The official JAX code and models have been released at [[google-research/maxim]](https://github.com/google-research/maxim) - **March 29, 2022:** MAXIM is selected for an **ORAL presentation** at CVPR 2022 :tada: - **March 3, 2022:** Paper accepted at CVPR 2022. <hr /> > **Abstract:** *Recent progress on Transformers and multi-layer perceptron (MLP) models provide new network architectural designs for computer vision tasks. Although these models proved to be effective in many vision tasks such as image recognition, there remain challenges in adapting them for low-level vision. The inflexibility to support high-resolution images and limitations of local attention are perhaps the main bottlenecks. In this work, we present a multi-axis MLP based architecture called MAXIM, that can serve as an efficient and flexible general-purpose vision backbone for image processing tasks. MAXIM uses a UNet-shaped hierarchical structure and supports long-range interactions enabled by spatially-gated MLPs. Specifically, MAXIM contains two MLP-based building blocks: a multi-axis gated MLP that allows for efficient and scalable spatial mixing of local and global visual cues, and a cross-gating block, an alternative to cross-attention, which accounts for cross-feature conditioning. Both these modules are exclusively based on MLPs, but also benefit from being both global and `fully-convolutional', two properties that are desirable for image processing. Our extensive experimental results show that the proposed MAXIM model achieves state-of-the-art performance on more than ten benchmarks across a range of image processing tasks, including denoising, deblurring, deraining, dehazing, and enhancement while requiring fewer or comparable numbers of parameters and FLOPs than competitive models.* <hr /> ## Architecture ![Model overview](images/overview.png) ## Installation TBD  ## Results and Pre-trained models TBD <!-- We provide all the pre-trained models and visual results. | Task | Dataset | PSRN | SSIM | Model | #params | FLOPs | ckpt | outputs | |:---:|:---:|:---:|:---:| :---:|:---:|:---:|:---:|:---:| | Denoising | SIDD | 39.96 | 0.960 | MAXIM-3S | 22.2M | 339G | [ckpt](https://console.cloud.google.com/storage/browser/gresearch/maxim/ckpt/Denoising/SIDD/) | [images](https://console.cloud.google.com/storage/browser/gresearch/maxim/results/Denoising/SIDD/) | | Denoising | DND | 39.84 | 0.954 | MAXIM-3S | 22.2M | 339G | [ckpt](https://console.cloud.google.com/storage/browser/gresearch/maxim/ckpt/Denoising/SIDD/) | [images](https://console.cloud.google.com/storage/browser/gresearch/maxim/results/Denoising/DND/) | | Deblurring | GoPro | 32.86 | 0.961 | MAXIM-3S | 22.2M | 339G | [ckpt](https://console.cloud.google.com/storage/browser/gresearch/maxim/ckpt/Deblurring/GoPro) | [images](https://console.cloud.google.com/storage/browser/gresearch/maxim/results/Deblurring/GoPro/) | | Deblurring | HIDE | 32.83 | 0.956 | MAXIM-3S | 22.2M | 339G | [ckpt](https://console.

评论收藏

内容反馈

版权申诉