利用torch.utils.data.Dataset自定义数据加载类_fromtorchimporttdata资源-CSDN文库

版权申诉

3星 · 超过75%的资源 85 浏览量 2020-12-21 11:48:25 上传评论收藏 18KB PDF 举报

import torch as t from torch.utils import data import os from PIL import Image import numpy as np import torchvision.transforms as T transforms = T.Compose([ 　　T.Resize(224), 　　T.CenterCrop(224), 　　T.ToTensor(), 　　T.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5)) ]) # 继承Dataset类要重写__getitem__ 在深度学习领域，高效的数据加载和预处理是训练模型的关键环节。`torch.utils.data.Dataset` 是 PyTorch 提供的一个接口，允许用户自定义数据集类来加载和处理自己的数据。这个类需要重写 `__getitem__()` 和 `__len__()` 方法，以满足特定数据集的需求。本示例中，我们将探讨如何利用 `torch.utils.data.Dataset` 创建一个自定义的数据加载类，用于区分猫狗图片的数据集。导入所需的库： ```python import torch as t from torch.utils import data import os from PIL import Image import numpy as np import torchvision.transforms as T ``` `torchvision.transforms` 模块提供了一系列图像预处理操作，如 `Resize`, `CenterCrop`, `ToTensor`, `Normalize` 等。这些操作在训练神经网络模型时非常常见，可以将图片转换为模型需要的格式。例如，在本例中，我们创建了一个转换器 `transforms`： ```python transforms = T.Compose([ T.Resize(224), # 将图片调整为 224x224 的大小 T.CenterCrop(224), # 对图片中心进行裁剪，保持 224x224 的尺寸 T.ToTensor(), # 将 PIL 图片转换为 PyTorch 张量 T.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5)) # 归一化张量，减去均值并除以标准差 ]) ``` 接下来，定义自定义数据集类 `CatDog`，它继承自 `data.Dataset`： ```python class CatDog(data.Dataset): def __init__(self, root, transforms=None): imgs = os.listdir(root) # 获取根目录下的所有文件名 self.imgs = [os.path.join(root, img) for img in imgs] # 构建完整的文件路径 self.transforms = transforms # 存储预处理变换 def __getitem__(self, index): # 必须重写的方法，返回索引对应的图片及其标签 img_path = self.imgs[index] label = 1 if 'dog' in img_path else 0 # 假设图片名称包含 'dog' 表示狗，否则表示猫 data = Image.open(img_path) # 打开图片 if self.transforms: # 如果有预处理变换，则应用 data = self.transforms(data) return data, label # 返回处理后的图片和对应的标签 def __len__(self): # 必须重写的方法，返回数据集的长度（图片数量） return len(self.imgs) ``` 在这个类中，`__init__()` 方法初始化数据集，读取指定根目录下的所有文件，并保存它们的完整路径。`__getitem__()` 方法根据索引返回图片和相应的标签。在这个例子中，我们简单地通过检查文件名是否包含 "dog" 来判断图片类别，实际项目中通常需要更精确的标注信息。`__len__()` 方法返回数据集中图片的数量。为了使用这个数据加载类，你需要实例化 `CatDog` 并传入图片的根目录以及可选的预处理变换： ```python root = '/path/to/your/dataset' # 替换为你的数据集路径 dataset = CatDog(root=root, transforms=transforms) ``` 现在你可以使用这个数据集来训练模型了。通常，我们还会使用 `DataLoader` 类来批量加载数据，这可以进一步提高训练效率： ```python dataloader = torch.utils.data.DataLoader(dataset, batch_size=32, shuffle=True) ``` 这里，`DataLoader` 会按指定的 `batch_size` 批量加载数据，并且可以随机打乱数据顺序，这对于训练过程是有益的。总结来说，`torch.utils.data.Dataset` 为自定义数据加载提供了便利。通过继承该类并重写 `__getitem__()` 和 `__len__()` 方法，我们可以灵活地处理各种类型的数据，并结合 `DataLoader` 实现高效、批量的数据加载，以适应深度学习模型的训练需求。

资源详情

资源评论

利用利用torch.utils.data.Dataset自定义数据加载类自定义数据加载类

import torch as t

from torch.utils import data

import os

from PIL import Image

import numpy as np

import torchvision.transforms as T

transforms = T.Compose([

　　T.Resize(224),

　　T.CenterCrop(224),

　　T.ToTensor(),

　　T.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5))

])

# 继承Dataset类要重写__getitem__()和__len__()

class CatDog(data.Dataset):

　　def __init__(self, root, transforms=None):

　　　　imgs = os.listdir(root)

　　　　self.imgs = [os.path.join(root, img) for img in imgs]

　　　　self.transforms = transforms

　　def __getitem__(self, index):

　　　　label = 1 if dog else 0

　　　　data = Image.open(self.imgs[index])

　　　　if self.transform:

　　　　　　data = self.transform(data)

　　　　return data, label

　　def __len__(self):

　　　　return len(self.imgs)

作者：枫叶

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

版权申诉

weixin_44062915

2022-01-21

好像没啥用处

利用torch.utils.data.Dataset自定义数据加载类

评论2

最新资源

利用torch.utils.data.Dataset自定义数据加载类

评论2

最新资源

相关推荐

python torch.utils.data.DataLoader使用方法

Video-Dataset-Loading-Pytorch:用于加载，预处理和增强视频数据集的通用PyTorch数据集实现

pytorch_自定义Dataset类.docx

pytorch 自定义数据集加载方法

pytorch加载语音类自定义数据集的方法教程

Pycharm中import torch报错的快速解决方法

吴恩达深度学习课程第一课第二周datasets和lr_utils

吴恩达课程所需lr_utils.py文件以及dataset数据集

深度神经网络的工具类和数据集dnn_utils_v2_lr_utils_dataset

lr_utils load_dataset 和 datasets

自定义用于读取matlab数据的类，仿照pytorch设计.rar

Pytorch 数据加载与数据预处理方式

pytorch torchvision.ImageFolder的用法介绍

custom_data.ipynb

PyTorch实现重写/改写Dataset并载入Dataloader

PyTorch学习笔记（4）Dataloader与Dataset（1）

lr_utils+datasets（亲测可用）

SSD-EMB.Pytorch

详解PyTorch批训练及优化器比较

深度学习设计（VGG19）智能计算系统

解决pytorch DataLoader num_workers出现的问题

【PyTorch学习】PyTorch基础知识

python基础教程：详解PyTorch批训练及优化器比较

Pytorch 神经网络—自定义数据集上实现教程

深度学习基于AVEC2014数据集和Resnet网络实现的抑郁症诊断系统python源码+运行说明+数据集.zip

预测股票价格的简单小程序，LSTM 实现，基于 Pytorch

并行程序设计导论课后答案_2.7z

加速度积分求速度和位移的c语言算法程序

数据结构课设用C、C++写旅游区景点导游系统头文件(用文件存储，DFS，DIJ算法），完全免费！没有要积分，能多给我点点赞吗？