【免费】华为mindspore培训资料：3.卷积神经网络详解.pptx

需积分: 0 125 浏览量更新于2024-03-24 收藏 3.85MB PPTX 举报

### 华为MindSpore培训资料：卷积神经网络详解 #### 一、卷积神经网络（CNN）基础 **1.1 卷积层原理** 卷积神经网络（Convolutional Neural Networks, CNN）是一种专门用于处理具有网格结构拓扑数据的神经网络，广泛应用于图像识别和分类等任务中。其核心思想是利用图像数据的局部特征和平移不变性，通过卷积操作提取特征。 - **局部特征与平移不变性**：卷积层能够捕捉图像的局部特征，并且这些特征对于图像的平移是不变的。这意味着即使物体在图像中的位置发生了变化，卷积层仍然能够识别它们。 - **卷积运算**：卷积层内部包含多个卷积核，卷积核逐步在二维输入数据上进行“滑动”，每次进行卷积运算，得到输出的feature map上某个像素的数值。具体步骤如下： - 卷积窗口从输入张量的左上角开始，从左到右、从上到下滑动。 - 当卷积窗口滑动到新一个位置时，包含在该窗口中的部分张量与卷积核张量进行按元素相乘，得到的张量再求和得到一个单一的标量值，由此我们得出了这一位置的输出张量值。 **1.2 卷积核、步长、填充与特征图** - **卷积核（Kernel）**：组成卷积核的每一个元素都对应一个权重（和偏差），为模型参数；卷积核大小为超参数。 - **步长（Stride）**：卷积核每次移动的距离；超参数。 - **填充（Padding）**：对输入数据进行填充；超参数。 - **特征图（Feature Map）**：卷积层的输入输出数据；输出特征图的大小和卷积核大小、步长、填充有关。 **示例**：输入为5x5，卷积核为3x3，步长为2，无填充，则特征图为2x2。如果步长为1且填充为pw=ph=2，则特征图也是5x5。 #### 二、卷积神经网络实现 - 互相关运算在卷积层中，互相关运算是用来计算输出feature map的关键步骤。它通过将输入数据与卷积核进行互相关运算来得到输出特征图。具体而言： - 输入数据与卷积核进行按元素相乘后求和，得到输出特征图的每个元素值。 - 卷积层中的两个被训练的参数是卷积核权重和标量偏置。 #### 三、现代卷积神经网络：ResNet **3.1 池化层** - **最大池化**：获取局部信息，更好地保留纹理上的特征。 - **平均池化**：保留整体数据的特征，突出背景的信息。 - **随机池化**：既能最大化保证最大元素的取值，又能确保不过度失真。 **3.2 批量归一化（Batch Normalization）** 批量归一化可以加速模型收敛，减轻网络梯度爆炸或梯度消失的问题。它是基于通道维度对隐藏层的输入/输出数据进行归一化。 **3.3 ResNet网络** - **退化问题**：随着网络层数变深，网络表现反而不如浅层网络。 - **残差网络结构（Residual Network）**：为了解决退化问题，ResNet提出了一种特殊的残差结构，使网络能够有效叠加更多的层而不会降低性能。 **3.4 构建残差块** - **building block结构**：基本的残差块结构。 - **bottleneck结构**：更高效的残差块结构，通常用于更深的网络中。 - **实现残差块**：通过定义`make_layer`函数实现残差块的构建，其参数包括上一个残差网络输出的通道数、残差网络输入的通道数、残差网络块堆叠的个数和卷积移动的步幅等。 **3.5 ResNet50架构** ResNet50是一个50层的深度残差网络，由以下主要部分构成： - **conv1**：输入图片大小为32x32，输入channel为3。经过卷积核数量为64，卷积核大小为7x7，stride为2的卷积层；然后通过Batch Normalization层；最后通过ReLU激活函数。输出feature map大小为16x16，输出channel为64。 - **conv2_x**：输入feature map大小为16x16，输入channel为64。输出feature map大小为8x8，输出channel为256。 - **conv3_x**：输入feature map大小为8x8，输入channel为256。输出feature map大小为4x4，输出channel为512。 - **conv4_x**：输入feature map大小为4x4，输入channel为512。输出feature map大小为2x2，输出channel为1024。 - **conv5_x**：输入feature map大小为2x2，输入channel为1024。输出feature map大小为1x1，输出channel为2048。 - **average pool & fc**：输入channel为2048，输出channel为分类的类别数。通过以上介绍可以看出，卷积神经网络尤其是ResNet网络，是图像识别和分类任务中非常强大的工具。通过合理设置卷积核、步长、填充等参数，结合批量归一化、残差块等技术，可以显著提升模型的性能和鲁棒性。