基于卷积神经网络的手写体识别_卷积神经网络手写数字识别资源-CSDN文库

共17个文件

png：8个

py：3个

idx1-ubyte：2个

python

卷积神经网络

手写字符识别

5星 · 超过95%的资源需积分: 24 97 浏览量 2022-08-10 22:00:26 上传评论 11 收藏 10.03MB RAR 举报

卷积神经网络（CNN，Convolutional Neural Network）是一种深度学习模型，特别适用于处理具有网格状结构的数据，如图像。在手写体识别任务中，CNN可以高效地捕捉到图像中的特征，例如笔画的形状、方向和连接，从而识别出特定的手写字符。这个项目是基于TensorFlow框架实现的，TensorFlow是Google开发的一款强大的开源机器学习库，它提供了丰富的工具和API来构建和训练复杂的神经网络模型。我们要理解CNN的基本结构。CNN通常包含卷积层（Convolutional Layer）、池化层（Pooling Layer）、全连接层（Fully Connected Layer）以及激活函数（如ReLU）等组件。卷积层通过滤波器（Filter）在输入图像上进行扫描，提取特征；池化层则用于降低数据维度，提高计算效率；全连接层将提取的特征映射到输出类别，最后通过Softmax函数进行分类。在这个手写字符识别项目中，可能首先进行了数据预处理，包括读取二进制文件（如train-labels.idx1-ubyte、t10k-labels.idx1-ubyte、train-images.idx3-ubyte、t10k-images.idx3-ubyte），这些文件可能包含了MNIST数据集的手写数字图像及其对应的标签。MNIST数据集是一个广泛使用的标准基准，包含60,000个训练样本和10,000个测试样本，每个样本都是28x28像素的灰度图像。接着，创建并训练CNN模型。模型可能由多个卷积层和池化层堆叠而成，每个卷积层后面通常会跟一个激活函数，如ReLU，以引入非线性。训练过程中，模型会通过反向传播算法更新权重，以最小化损失函数，如交叉熵损失。在训练过程中，可能会使用验证集进行超参数调优，比如学习率、批量大小、层数、滤波器数量等。 cnn_model_2.h5和cnn_model.h5可能是保存的训练好的模型权重文件，可以加载这些模型继续训练或者直接进行预测。这些模型文件表明至少有两种不同的网络结构或训练设置被尝试过。项目中还包含了一些手写数字的示例图像（如4.png、0.png、2.png、8.png），这些可能是为了可视化模型的预测结果，帮助理解模型的性能。通过输入这些图像，可以查看模型是否能够正确识别不同的手写数字。这个项目展示了如何利用TensorFlow构建和训练一个CNN模型，对手写数字进行识别。对于初学者，这是一个很好的实践案例，可以深入理解CNN的工作原理和图像识别的流程。而对于经验丰富的开发者，它可以作为一个起点，进一步优化模型，提高识别准确率，或者将其应用到更复杂的手写文本识别任务中。

资源详情

资源评论

资源推荐

收起资源包目录

基于卷积神经网络的手写体识别.rar （17个子文件）

train-images.idx3-ubyte 44.86MB

t10k-labels.idx1-ubyte 10KB

5.png 961B

9.png 930B

t10k-images.idx3-ubyte 7.48MB

predict_cnn.py 426B

Keras_手写体识别.py 2KB

train-labels.idx1-ubyte 59KB

5_err.png 247B

0.png 1KB

cnn_model_2.h5 100KB

2.png 1KB

4.png 1KB

8.png 1000B

MNIST.py 4KB

3.png 957B

cnn_model.h5 89KB

# -*- coding: UTF-8 -*- # 获取手写数据。 # 28*28的图片对象。每个图片对象根据需求是否转化为长度为784的横向量 # 每个对象的标签为0-9的数字，one-hot编码成10维的向量 import numpy as np # 数据加载器基类。派生出图片加载器和标签加载器 class Loader(object): # 初始化加载器。path: 数据文件路径。count: 文件中的样本个数 def __init__(self, path, count): self.path = path self.count = count # 读取文件内容 def get_file_content(self): print(self.path) f = open(self.path, 'rb') content = f.read() # 读取字节流 f.close() return content # 字节数组 # 将unsigned byte字符转换为整数。python3中bytes的每个分量读取就会变成int # def to_int(self, byte): # return struct.unpack('B', byte)[0] # 图像数据加载器 class ImageLoader(Loader): # 内部函数，从文件字节数组中获取第index个图像数据。文件中包含所有样本图片的数据。 def get_picture(self, content, index): start = index * 28 * 28 + 16 # 文件头16字节，后面每28*28个字节为一个图片数据 picture = [] for i in range(28): picture.append([]) # 图片添加一行像素 for j in range(28): byte1 = content[start + i * 28 + j] picture[i].append(byte1) # python3中本来就是int # picture[i].append(self.to_int(byte1)) # 添加一行的每一个像素 return picture # 图片为[[x,x,x..][x,x,x...][x,x,x...][x,x,x...]]的列表 # 将图像数据转化为784的行向量形式 def get_one_sample(self, picture): sample = [] for i in range(28): for j in range(28): sample.append(picture[i][j]) return sample # 加载数据文件，获得全部样本的输入向量。onerow表示是否将每张图片转化为行向量，to2表示是否转化为0,1矩阵 def load(self,onerow=False): content = self.get_file_content() # 获取文件字节数组 data_set = [] for index in range(self.count): #遍历每一个样本 onepic =self.get_picture(content, index) # 从样本数据集中获取第index个样本的图片数据，返回的是二维数组 if onerow: onepic = self.get_one_sample(onepic) # 将图像转化为一维向量形式 data_set.append(onepic) return data_set # 标签数据加载器 class LabelLoader(Loader): # 加载数据文件，获得全部样本的标签向量 def load(self): content = self.get_file_content() # 获取文件字节数组 labels = [] for index in range(self.count): #遍历每一个样本 onelabel = content[index + 8] # 文件头有8个字节 onelabelvec = self.norm(onelabel) #one-hot编码 labels.append(onelabelvec) return labels # 内部函数，one-hot编码。将一个值转换为10维标签向量 def norm(self, label): label_vec = [] # label_value = self.to_int(label) label_value = label # python3中直接就是int for i in range(10): if i == label_value: label_vec.append(1) else: label_vec.append(0) return label_vec # 获得训练数据集。onerow表示是否将每张图片转化为行向量 def get_training_data_set(num,onerow=False): image_loader = ImageLoader('train-images.idx3-ubyte', num) # 参数为文件路径和加载的样本数量 label_loader = LabelLoader('train-labels.idx1-ubyte', num) # 参数为文件路径和加载的样本数量 return image_loader.load(onerow), label_loader.load() # 获得测试数据集。onerow表示是否将每张图片转化为行向量 def get_test_data_set(num,onerow=False): image_loader = ImageLoader('t10k-images.idx3-ubyte', num) # 参数为文件路径和加载的样本数量 label_loader = LabelLoader('t10k-labels.idx1-ubyte', num) # 参数为文件路径和加载的样本数量 return image_loader.load(onerow), label_loader.load() # 将一行784的行向量，打印成图形的样式 def printimg(onepic): onepic=onepic.reshape(28,28) for i in range(28): for j in range(28): if onepic[i,j]==0: print(' ',end='') else: print('* ',end='') print('')