# cifar10Dataset
Creat your own dataset with the similar format with CIFAR10 in python version.
之前发布的[仿照CIFAR10数据集格式,制作自己的数据集](http://blog.csdn.net/yhl_leo/article/details/50801226) (C++版本),得到一些网友的关注,并且不断有网友在评论区或者私信里询问,怎样制作python版本的。趁着下午有点闲时间,把制作方法整理发布在这里,希望对大家有所帮助。
源码地址GitHub: [yhlleo/cifar10Dataset](https://github.com/yhlleo/cifar10Dataset)
关于python 版本的CIFAR10的数据格式,官网上已经介绍:
> **data** -- a 10000x3072 numpy array of uint8s. Each row of the array stores a 32x32 colour image. The first 1024 entries contain the red channel values, the next 1024 the green, and the final 1024 the blue. The image is stored in row-major order, so that the first 32 entries of the array are the red channel values of the first row of the image.
> **labels** -- a list of 10000 numbers in the range 0-9. The number at index i indicates the label of the ith image in the array data.
因此,想要制作自己的数据集,只需要把`data`, `label`准备好就可以,另外,我们可以读取`cifar10`存储好的文件,查看其数据格式,以`data_batch_1`为例(可以通过`cifar10_read.py`读取):
```
{'data': array([[ 59, 43, 50, ..., 140, 84, 72],
[154, 126, 105, ..., 139, 142, 144],
[255, 253, 253, ..., 83, 83, 84],
...,
[ 71, 60, 74, ..., 68, 69, 68],
[250, 254, 211, ..., 215, 255, 254],
[ 62, 61, 60, ..., 130, 130, 131]], dtype=uint8),
'labels': [6, 9, 9, 4, 1, 1, 2, 7, 8, 3, 4, 7, 7, 2, 9, 9, 9, 3, 2, 6, 4, 3, 6, 6, 2, 6, 3, 5, 4, 0, 0, 9, 1, 3, 4, 0, 3, 7, 3, 3, 5, 2, 2, 7, 1, 1, 1, 2, 2, 0, 9, 5, 7, 9, 2, 2, 5, 2, 4, 3, 1, 1, 8, 2, 1, 1, 4, 9, 7, 8, 5, 9, 6, 7, 3, 1, 9, 0, 3, 1, 3, 5, 4, 5, 7, 7, ... , 9, 8, 9, 4, 4, 7, 1, 0, 4, 3, 6, 3, 9, 8, 3, 6, 8, 3, 6, 6, 2, 6, 7, 3, 0, 0, 0, 2, 5, 1, 2, 9, 2, 2, 1, 6, 3, 9, 1, 1, 5],
'batch_label': 'training batch 1 of 5',
'filenames': ['leptodactylus_pentadactylus_s_000004.png', 'camion_s_000148.png', 'tipper_truck_s_001250.png', ... , 'truck_s_000036.png', 'car_s_002296.png', 'estate_car_s_001433.png', 'cur_s_000170.png']}
```
很明显,python版本存储成了一个`dict`,其中`key`包括:
- `data`, 存放图像数据文件,是一个`nx3072`的数组;
- `labels`, 存放图像对应的`label`,是一个`nx1`的数组;
- `batch_label`, 说明信息;
- `filenames`, 文件名列表。
详细的代码内容,可以查看实现代码,另外`demo.py`中提供了测试数据,这里把读取的文件结果输出:
```
{'data': array([[255, 255, 255, ..., 255, 255, 255],
[255, 255, 255, ..., 255, 255, 255]], dtype=uint8),
'label': [0, 1],
'batch_label': 'training batch 0 of 1',
'filenames': ['a.png', 'b.png']}
```
跟官方数据的输出格式一致,虽然没有训练测试,但是理论上应该没问题,大家在测试的过程中,如果遇到问题,欢迎指出。
没有合适的资源?快使用搜索试试~ 我知道了~
CNN图像分类完整代码,从图像裁剪处理到训练。.zip
共13个文件
py:5个
png:2个
md:1个
需积分: 5 0 下载量 175 浏览量
2024-04-15
00:14:56
上传
评论
收藏 9KB ZIP 举报
温馨提示
【项目资源】:包含前端、后端、移动开发、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源等各种技术项目的源码。包括C++、Java、python、web、C#、EDA等项目的源码。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
CNN图像分类完整代码,从图像裁剪处理到训练。.zip (13个子文件)
newPic
__init__.py 0B
Data_Load 1KB
ImageCropping 526B
load_data.py 2KB
data
images.lst 16B
a.png 662B
b.png 725B
CNN_train 2KB
bin
data_batch_0 24KB
cifar10_read.py 290B
pickled.py 1KB
demo.py 386B
README.md 3KB
共 13 条
- 1
资源评论
白话Learning
- 粉丝: 3195
- 资源: 2464
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功