基于Unet模型和并联注意力机制实现猫和老鼠动画片的语义分割

共15个文件

py：14个

md：1个

版权申诉

pytorch

人工智能

语义分割

注意力机制

CBAM

26 浏览量 2023-12-27 08:17:00 上传评论 2 收藏 43KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

Unet-Tom-Jerry-main.rar （15个子文件）

utils.py 3KB

Myattention.py 2KB

predict.py 9KB

get_miou.py 3KB

utils_metrics.py 9KB

dataloader.py 6KB

dataloader_medical.py 6KB

unet.py 3KB

resnet.py 6KB

vgg.py 3KB

utils_fit.py 11KB

callbacks.py 8KB

train.py 31KB

README.md 45KB

unet_training.py 5KB

# <center>**基于迁移学习与并联注意力机制的猫和老鼠动画片语义分割**</center> **目录:** **一、项目简介** **二、数据集处理** &emsp; **2.1、数据获取** &emsp; **2.2、数据清洗** &emsp; **2.3、数据标注** &emsp; **2.4、数据增强** &emsp; **2.5、数据集划分** **三、模型搭建** **四、模型训练** **五、模型改进** &emsp; **5.1 添加CBAM注意力机制** &emsp; **5.2 基于CBAM注意力机制的进一步改进——并联注意力机制** **六、模型对比** **七、项目总结** **亮点:** ![image.png](attachment:368a0298-6c93-4491-9b51-dc0a9e720fc9.png) # 一、项目简介基于**Unet模型**和**并联注意力机制**实现猫和老鼠动画片的语义分割，其中并联注意力机制受**CBAM注意力机制**的启发，将**通道注意力机制机制和空间注意力机制并联**，给予不同通道不同空间不同权重。本项目使用的数据集通过**爬虫**获取，清洗后使用**百度平台EasyData**进行标注，共682张，其中545中用来训练，137张用来测试。本项目使用**Visio可视化模型结构图**，并对比了原版Unet、添加CBAM注意力机制和添加本项目提出的并联注意力机制三种模型。在项目的最后，通过进行模型测试，证明模型有较好的语义分割能力。 # 二、数据集处理 ## 2.1 数据集获取使用**爬虫**爬取百度图库中猫和老鼠图片，进行数据清晰和标注。脚本可以根据网页关键词进行爬取，并指定爬取的页数，保存在关键词同名目录下，如果文件夹不存在，那么会创建这个文件夹，图片名从0开始命名。本次项目是猫和老鼠的语义分割任务，因此**关键词指定为猫和老鼠，爬取页数指定为25页**，共爬取900张猫和老鼠的图片。 ```python # 导入相应的库 import os import re import requests # 获取网站源码 def get_html(url, headers, params): response = requests.get(url, headers=headers, params=params) # 设置源代码的编码方式 response.encoding = "utf-8" # return response.text if response.status_code == 200: return response.text else: print("网站源码获取错误") def parse_pic_url(html): result = re.findall('thumbURL":"(.*?)"', html, re.S) return result # 获取图片的二进制源码 def get_pic_content(url): response = requests.get(url) # 设置源代码的编码方式 return response.content # 保存图片 def save_pic(fold_name, content, pic_name): # with open("大熊猫/" + str(pic_name) + ".jpg", "wb") as f: with open(fold_name + "/" + str(pic_name) + ".jpg", "wb") as f: f.write(content) f.close() # 定义一个新建文件夹程序 def create_fold(fold_name): # 加异常处理 try: os.mkdir(fold_name) except: print("文件夹已存在") # 定义main函数调用get_html函数 def get_image(): # 输入文件夹的名字 fold_name = input("请输入您要抓取的图片名字:") # 输入要抓取的图片页数 page_num = input("请输入要抓取多少页？ (0. 1. 2. 3. .....)") # 调用函数，创建文件夹 create_fold(fold_name) # 定义图片名字 pic_name = 0 # 构建循环，控制页面 for i in range(int(page_num)): url = "https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MCwzLDEsMiw2LDUsNCw4LDcsOQ%3D%3D&word=%E7%8C%AB%E5%92%8C%E8%80%81%E9%BC%A0" headers = { "Accept": "text/plain, */*; q=0.01", "Accept-Encoding": "gzip, deflate", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6", "Connection": "keep-alive", "Cookie": "BDqhfp=%E5%A4%A7%E7%86%8A%E7%8C%AB%E5%9B%BE%E7%89%87%26%26NaN-1undefined%26%261632%26%263; BIDUPSID=D076CA87E4CD25BA082EA0E9B5B9C82F; PSTM=1663428044; MAWEBCUID=web_fMcFGAgtkEbzDpinjKvUtGFDInsruypyhIDrXDSpxBBJoXftlZ; BAIDUID=D076CA87E4CD25BA568D2D9EF1AD5F5C:SL=0:NR=10:FG=1; indexPageSugList=%5B%22%E7%8C%AB%22%2C%22%26cl%3D2%26lm%3D-1%26ie%3Dutf-8%26oe%3Dutf-8%26adpicid%3D%26st%3D%26z%3D%26ic%3D%26hd%3D%26latest%3D%26copyright%3D%26word%3D%E5%A4%A7%E8%B1%A1%26s%3D%26se%3D%26tab%3D%26width%3D%26height%3D%26face%3D%26istype%3D%26qc%3D%26nc%3D%26fr%3D%26expermode%3D%26force%3D%26pn%3D30%26rn%3D30%22%2C%22%E6%80%A7%E6%84%9F%E7%BE%8E%E5%A5%B3%22%5D; ZFY=JujkjWiLPjOsSz:Ag1v0hFWlSBt4qjPC4L6bB4MDS6Jo:C; BAIDUID_BFESS=D076CA87E4CD25BA568D2D9EF1AD5F5C:SL=0:NR=10:FG=1; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; userFrom=null; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; ab_sr=1.0.1_YTc4N2NiNWIyZWM5NTkzYzQ3MmZlNTI3Y2YyM2RiMTE3YmYwMTBiNzQ0YzhlZmJkZDY4YjJhZWU4NjVmMmQxZmJkYTcxODZkYTgwNjhhZDY5ZWZmYjg4Y2FmMGE5YTBmNjc3M2JhZDEwZTU1MTAyMTA1MjUxN2Y2NDNlMTJiNzhjNTIyYTQwNTg5ODNiMzc1MjRlZDdmNTVkMzdkOGJiOQ==", "Host": "image.baidu.com", "Referer": "https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%B4%F3%D0%DC%C3%A8%CD%BC%C6%AC&fr=ala&ala=1&alatpl=normal&pos=0&dyTabStr=MTEsMCwxLDMsNiw1LDQsMiw3LDgsOQ%3D%3D", "Sec-Ch-Ua": '"Microsoft Edge";v="117", "Not;A=Brand";v="8", "Chromium";v="117"', "Sec-Ch-Ua-Mobile": "?0", "Sec-Ch-Ua-Platform": '"Windows"', "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "Sec-Fetch-Site": "same-origin", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.43", "X-Requested-With": "XMLHttpRequest", } params = { "tn": "resultjson_com", "logid": "11637882045647848541", "ipn": "rj", "ct": "201326592", "fp": "result", "fr": "ala", "word": fold_name, "queryWord": fold_name, "cl": "2", "lm": "-1", "ie": "utf-8", "oe": "utf-8", "pn": str(int(i + 1) * 30), "rn": "30", "gsm": "3c", } html = get_html(url, headers, params) # print(html) result = parse_pic_url(html) # 使用for循环遍历列表 for item in result: # print(item) # 调用函数，获取图片的二进制源码 pic_content = get_pic_content(item) # 调用函数保存图片 save_pic(fold_name, pic_content, pic_name) pic_name += 1 # print(pic_content) # 二进制源码 print("正在保存" + str(pic_name) + " 张图片") get_image() ``` ## 2.2数据清洗由于数据是爬取的，**质量参差不齐**，尤其是分辨率不统一，后续输入模型中的图像要求大小统一，所以要resize，为防止resize对图片造成的失真，这里对**图像的长宽比**进行判断，如果长宽比小于0.5或者大于2，那么就舍弃这张图片，如果在范围之类那么resize成**512x512**大小的图片。并且对通过代码筛选的**图片内容**进行**人工逐一筛查**，如图片中没有出现猫或者老鼠的图片，或者清晰度特别低的脏数据，进行剔除。如下面所示左侧为长宽比不符合要求，右侧为图片内容不符合要求，故都进行剔除！ ![image.png](attachment:1e8df6d6-d879-4d73-adeb-3ba9620bd535.png) ![484.jpg](attachment:b780ea95-74e5-417f-b2de-92c225c28d02.jpg) ```python import shutil import os from PIL import Image # Create a directory for the resized images if it doesn't

评论收藏

内容反馈

版权申诉