keras使用Sequence类调用大规模数据集进行训练的实现

39 浏览量 2020-09-16 15:24:11 上传评论收藏 55KB PDF 举报

资源详情

资源评论

keras使用使用Sequence类调用大规模数据集进行训练的实现类调用大规模数据集进行训练的实现

主要介绍了keras使用Sequence类调用大规模数据集进行训练的实现，具有很好的参考价值，希望对大家有所

帮助。一起跟随小编过来看看吧

使用Keras如果要使用大规模数据集对网络进行训练，就没办法先加载进内存再从内存直接传到显存了，除了使用Sequence

类以外，还可以使用迭代器去生成数据，但迭代器无法在fit_generation里开启多进程，会影响数据的读取和预处理效率，在

本文中就不在叙述了，有需要的可以另外去百度。

下面是我所使用的代码

class SequenceData(Sequence):

def __init__(self, path, batch_size=32):

self.path = path

self.batch_size = batch_size

f = open(path)

self.datas = f.readlines()

self.L = len(self.datas)

self.index = random.sample(range(self.L), self.L)

#返回长度，通过len(<你的实例>)调用

def __len__(self):

return self.L - self.batch_size

#即通过索引获取a[0],a[1]这种

def __getitem__(self, idx):

batch_indexs = self.index[idx:(idx+self.batch_size)]

batch_datas = [self.datas[k] for k in batch_indexs]

img1s,img2s,audios,labels = self.data_generation(batch_datas)

return ({'face1_input_1': img1s, 'face2_input_2': img2s, 'input_3':audios},{'activation_7':labels})

def data_generation(self, batch_datas):

#预处理操作

return img1s,img2s,audios,labels

然后在代码里通过fit_generation函数调用并训练

这里要注意，use_multiprocessing参数是是否开启多进程，由于python的多线程不是真的多线程，所以多进程还是会获得比

较客观的加速，但不支持windows，windows下python无法使用多进程。

D = SequenceData('train.csv')

model_train.fit_generator(generator=D,steps_per_epoch=int(len(D)),

epochs=2, workers=20, #callbacks=[checkpoint],

use_multiprocessing=True, validation_data=SequenceData('vali.csv'),validation_steps=int(20000/32))

同样的，也可以在测试的时候使用

model.evaluate_generator(generator=SequenceData('face_test.csv'),steps=int(125100/32),workers=32)

补充知识：补充知识：keras数据自动生成器，继承数据自动生成器，继承keras.utils.Sequence，结合，结合fit_generator实现节约内存训练实现节约内存训练

我就废话不多说了，大家还是直接看代码吧~

#coding=utf-8

'''

Created on 2018-7-10

'''

import keras

import math

import os

import cv2

import numpy as np

from keras.models import Sequential

from keras.layers import Dense

class DataGenerator(keras.utils.Sequence):

def __init__(self, datas, batch_size=1, shuffle=True):

self.batch_size = batch_size

self.datas = datas

self.indexes = np.arange(len(self.datas))

self.shuffle = shuffle

def __len__(self):

#计算每一个epoch的迭代次数

return math.ceil(len(self.datas) / float(self.batch_size))

def __getitem__(self, index):

#生成每个batch数据，这里就根据自己对数据的读取方式进行发挥了

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

keras使用Sequence类调用大规模数据集进行训练的实现

评论0

最新资源

keras使用Sequence类调用大规模数据集进行训练的实现

评论0

最新资源

相关推荐

深度学习keras例程中常用的数据集

大数据数据集

yolo3-training-keras-master:在GPU上使用自己的数据进行YOLOv3培训。 YOLOv3的Keras实现

Handwriting_Digits_Classification：使用Tensorflow和keras进行手写数字分类，训练数据集的准确性为99％，测试数据集的准确性为91％

项目实战-TextCNN文本分类（keras实现）源代码及数据集.zip

项目实战-Bert文本分类（keras-bert实现）源代码及数据集.zip

Keras多标签多分类的验证码训练集

基于Keras+python实现的声纹识别系统完整源码(可训练和测试)+带数据集+训练好的模型+项目说明.7z

keras学习数据集

使用keras进行图像识别分类

Keras上用ACGAN实现自己数据的数据扩增（可直接运行）

keras使用迁移学习实现医学图像二分类

基于Keras搭建RNN网络训练IMDB影评数据集源码+IMDB数据集+项目说明.zip

keras resnet 训练自己的数据

【YOLO初探】之 keras-yolov3训练自己数据集第一部分

tensorflow-keras卷积神经网络CNN实现cifar10图像分类源码+数据集+注释+模型加载保存

人工智能-项目实践-图像识别-keras使用迁移学习实现医学图像二分类（AK、SK）

课程设计-基于Keras搭建一个简单的卷积神经网络CNN，用猫狗数据集和花卉数据集对CNN进行训练，完成模型的保存加载和识别

Keras数据集-fashion-mnist

LSTM实现对股票数据进行预测（Keras实现）源代码及数据集

mnist数据集及keras代码.zip

基于Keras Faster-rcnn对kitti数据集进行目标识别

Origin绘制相关性热图插件(Correlation Plot)

（免费）Chrome浏览器插件axure-chrome-extension

noc指导教师资格认证题库

vep视频快速加密提取器