基于Unet模型和并联注意力机制实现猫和老鼠动画片的语义分割.zip

共14个文件

py：14个

版权申诉

自注意力

attention

62 浏览量 2024-02-06 22:24:35 上传评论收藏 31KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Unet模型和并联注意力机制实现猫和老鼠动画片的语义分割.zip （14个子文件）

Unet-Tom-Jerry-main

utils.py 3KB

Myattention.py 2KB

predict.py 9KB

get_miou.py 3KB

utils_metrics.py 9KB

dataloader.py 6KB

dataloader_medical.py 6KB

unet.py 3KB

resnet.py 6KB

vgg.py 3KB

utils_fit.py 11KB

callbacks.py 8KB

train.py 31KB

unet_training.py 5KB

import datetime import os from functools import partial import numpy as np import torch import torch.backends.cudnn as cudnn import torch.distributed as dist import torch.optim as optim from torch.utils.data import DataLoader from nets.unet import Unet from nets.unet_training import get_lr_scheduler, set_optimizer_lr, weights_init from utils.callbacks import EvalCallback, LossHistory from utils.dataloader import UnetDataset, unet_dataset_collate from utils.utils import (download_weights, seed_everything, show_config, worker_init_fn) from utils.utils_fit import fit_one_epoch ''' 训练自己的语义分割模型一定需要注意以下几点： 1、训练前仔细检查自己的格式是否满足要求，该库要求数据集格式为VOC格式，需要准备好的内容有输入图片和标签输入图片为.jpg图片，无需固定大小，传入训练前会自动进行resize。灰度图会自动转成RGB图片进行训练，无需自己修改。输入图片如果后缀非jpg，需要自己批量转成jpg后再开始训练。标签为png图片，无需固定大小，传入训练前会自动进行resize。由于许多同学的数据集是网络上下载的，标签格式并不符合，需要再度处理。一定要注意！标签的每个像素点的值就是这个像素点所属的种类。网上常见的数据集总共对输入图片分两类，背景的像素点值为0，目标的像素点值为255。这样的数据集可以正常运行但是预测是没有效果的！需要改成，背景的像素点值为0，目标的像素点值为1。如果格式有误，参考：https://github.com/bubbliiiing/segmentation-format-fix 2、损失值的大小用于判断是否收敛，比较重要的是有收敛的趋势，即验证集损失不断下降，如果验证集损失基本上不改变的话，模型基本上就收敛了。损失值的具体大小并没有什么意义，大和小只在于损失的计算方式，并不是接近于0才好。如果想要让损失好看点，可以直接到对应的损失函数里面除上10000。训练过程中的损失值会保存在logs文件夹下的loss_%Y_%m_%d_%H_%M_%S文件夹中 3、训练好的权值文件保存在logs文件夹中，每个训练世代（Epoch）包含若干训练步长（Step），每个训练步长（Step）进行一次梯度下降。如果只是训练了几个Step是不会保存的，Epoch和Step的概念要捋清楚一下。 ''' if __name__ == "__main__": #---------------------------------# # Cuda 是否使用Cuda # 没有GPU可以设置成False #---------------------------------# Cuda = True #----------------------------------------------# # Seed 用于固定随机种子 # 使得每次独立训练都可以获得一样的结果 #----------------------------------------------# seed = 11 #---------------------------------------------------------------------# # distributed 用于指定是否使用单机多卡分布式运行 # 终端指令仅支持Ubuntu。CUDA_VISIBLE_DEVICES用于在Ubuntu下指定显卡。 # Windows系统下默认使用DP模式调用所有显卡，不支持DDP。 # DP模式： # 设置 distributed = False # 在终端中输入 CUDA_VISIBLE_DEVICES=0,1 python train.py # DDP模式： # 设置 distributed = True # 在终端中输入 CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch --nproc_per_node=2 train.py #---------------------------------------------------------------------# distributed = False #---------------------------------------------------------------------# # sync_bn 是否使用sync_bn，DDP模式多卡可用 #---------------------------------------------------------------------# sync_bn = False #---------------------------------------------------------------------# # fp16 是否使用混合精度训练 # 可减少约一半的显存、需要pytorch1.7.1以上 #---------------------------------------------------------------------# fp16 = False #-----------------------------------------------------# # num_classes 训练自己的数据集必须要修改的 # 自己需要的分类个数+1，如2+1 #-----------------------------------------------------# num_classes =3 #-----------------------------------------------------# # 主干网络选择 # vgg # resnet50 #-----------------------------------------------------# backbone = "resnet50" #----------------------------------------------------------------------------------------------------------------------------# # pretrained 是否使用主干网络的预训练权重，此处使用的是主干的权重，因此是在模型构建的时候进行加载的。 # 如果设置了model_path，则主干的权值无需加载，pretrained的值无意义。 # 如果不设置model_path，pretrained = True，此时仅加载主干开始训练。 # 如果不设置model_path，pretrained = False，Freeze_Train = Fasle，此时从0开始训练，且没有冻结主干的过程。 #----------------------------------------------------------------------------------------------------------------------------# pretrained = True #----------------------------------------------------------------------------------------------------------------------------# # 权值文件的下载请看README，可以通过网盘下载。模型的预训练权重对不同数据集是通用的，因为特征是通用的。 # 模型的预训练权重比较重要的部分是主干特征提取网络的权值部分，用于进行特征提取。 # 预训练权重对于99%的情况都必须要用，不用的话主干部分的权值太过随机，特征提取效果不明显，网络训练的结果也不会好 # 训练自己的数据集时提示维度不匹配正常，预测的东西都不一样了自然维度不匹配 # # 如果训练过程中存在中断训练的操作，可以将model_path设置成logs文件夹下的权值文件，将已经训练了一部分的权值再次载入。 # 同时修改下方的冻结阶段或者解冻阶段的参数，来保证模型epoch的连续性。 # # 当model_path = ''的时候不加载整个模型的权值。 # # 此处使用的是整个模型的权重，因此是在train.py进行加载的，pretrain不影响此处的权值加载。 # 如果想要让模型从主干的预训练权值开始训练，则设置model_path = ''，pretrain = True，此时仅加载主干。 # 如果想要让模型从0开始训练，则设置model_path = ''，pretrain = Fasle，Freeze_Train = Fasle，此时从0开始训练，且没有冻结主干的过程。 # # 一般来讲，网络从0开始的训练效果会很差，因为权值太过随机，特征提取效果不明显，因此非常、非常、非常不建议大家从0开始训练！ # 如果一定要从0开始，可以了解imagenet数据集，首先训练分类模型，获得网络的主干部分权值，分类模型的主干部分和该模型通用，基于此进行训练。 #----------------------------------------------------------------------------------------------------------------------------# model_path = "model_data/unet_resnet_voc.pth" #-----------------------------------------------------# # input_shape 输入图片的大小，32的倍数 #-----------------------------------------------------# inp

评论收藏

内容反馈

版权申诉