CIFAR-10/100数据集中文说明_mtcars数据集资源-CSDN文库

5星 · 超过95%的资源需积分: 43 77 浏览量 2018-01-25 12:03:05 上传评论收藏 265KB DOCX 举报

CIFAR-10/100 数据集中文说明 CIFAR-10/100 数据集是深度学习领域中常用的数据集之一，由亚历克斯·克里日夫斯基、维诺德·奈尔和杰弗里·辛顿收集。它是由八千万个微小图像数据集的标记子集组成。 CIFAR-10 数据集由 10 个类中的 60000 幅 32x32 幅彩色图像组成，每类有 6000 幅图像。共有 50000 幅训练图像和 10000 张测试图像。数据集分为五个训练批次和一个测试批次，每个训练批次有 10000 幅图像。测试批次包含来自每个类的 1000 个随机选择的图像。 CIFAR-10 中的类别包括： * Airplane * Automobile * Bird * Cat * Deer * Dog * Frog * Horse * Ship * Truck 这些类是完全相互不同的类。汽车和卡车之间没有重叠。“汽车”包括轿车，SUV，诸如此类的东西。“卡车”只包括大卡车。这两项都不包括皮卡。数据集的布局可以使用 Python 或 MATLAB 语言进行读取。Python 版本的布局是使用 cPickle 生成的 Python“腌制”对象，每个批处理文件包含一个包含以下元素的字典： * Data -- 一个 10000x3072 numpy 的 uint8s 数组。数组的每一行存储一个 32x32 彩色图像。 * Label -- 在 0-9 范围内的 10000 个数字的列表。索引 i 处的数字指示数组数据中 ith 图像的标签。数据集还包含另一个文件，称为 batches.meta。它也包含一个 Python 字典对象，包含以下条目： * Label_Names -- 一个 10 元素的列表，它为上面描述的标签数组中的数字标签提供有意义的名称。数据集的二进制版本包含了 data_Batch_1.bin、data_Batch_2.bin、...、data_Batch_5.bin 以及 test_batch.bin 文件。这些文件的格式如下：<1 x label><3072 x pixel>...<1 x label><3072 x pixel> 如果您要使用此数据集，请在技术报告中引用。您可以在 Cuda-ConvNet 的项目页面上找到一些可复制的基线结果。这些结果是使用卷积神经网络得到的。 JasperSnoek 还发表了一篇新的论文，其中他使用贝叶斯超参数优化来寻找权重衰减和其他超参数的良好设置，这使他能够使用 18%的网络结构获得 15%(不增加数据)的测试错误率。其他结果：罗德里戈·贝南森(RodrigoBenenson)在他的网站上收集了 CIFAR-10/100 和其他数据集的结果。

资源推荐

资源详情

资源评论