华为mindspore培训资料:3. 卷积神经网络详解.pptx

preview
需积分: 0 3 下载量 125 浏览量 更新于2024-03-24 收藏 3.85MB PPTX 举报
### 华为MindSpore培训资料:卷积神经网络详解 #### 一、卷积神经网络(CNN)基础 **1.1 卷积层原理** 卷积神经网络(Convolutional Neural Networks, CNN)是一种专门用于处理具有网格结构拓扑数据的神经网络,广泛应用于图像识别和分类等任务中。其核心思想是利用图像数据的局部特征和平移不变性,通过卷积操作提取特征。 - **局部特征与平移不变性**:卷积层能够捕捉图像的局部特征,并且这些特征对于图像的平移是不变的。这意味着即使物体在图像中的位置发生了变化,卷积层仍然能够识别它们。 - **卷积运算**:卷积层内部包含多个卷积核,卷积核逐步在二维输入数据上进行“滑动”,每次进行卷积运算,得到输出的feature map上某个像素的数值。具体步骤如下: - 卷积窗口从输入张量的左上角开始,从左到右、从上到下滑动。 - 当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标量值,由此我们得出了这一位置的输出张量值。 **1.2 卷积核、步长、填充与特征图** - **卷积核(Kernel)**:组成卷积核的每一个元素都对应一个权重(和偏差),为模型参数;卷积核大小为超参数。 - **步长(Stride)**:卷积核每次移动的距离;超参数。 - **填充(Padding)**:对输入数据进行填充;超参数。 - **特征图(Feature Map)**:卷积层的输入输出数据;输出特征图的大小和卷积核大小、步长、填充有关。 **示例**:输入为5x5,卷积核为3x3,步长为2,无填充,则特征图为2x2。如果步长为1且填充为pw=ph=2,则特征图也是5x5。 #### 二、卷积神经网络实现 - 互相关运算 在卷积层中,互相关运算是用来计算输出feature map的关键步骤。它通过将输入数据与卷积核进行互相关运算来得到输出特征图。具体而言: - 输入数据与卷积核进行按元素相乘后求和,得到输出特征图的每个元素值。 - 卷积层中的两个被训练的参数是卷积核权重和标量偏置。 #### 三、现代卷积神经网络:ResNet **3.1 池化层** - **最大池化**:获取局部信息,更好地保留纹理上的特征。 - **平均池化**:保留整体数据的特征,突出背景的信息。 - **随机池化**:既能最大化保证最大元素的取值,又能确保不过度失真。 **3.2 批量归一化(Batch Normalization)** 批量归一化可以加速模型收敛,减轻网络梯度爆炸或梯度消失的问题。它是基于通道维度对隐藏层的输入/输出数据进行归一化。 **3.3 ResNet网络** - **退化问题**:随着网络层数变深,网络表现反而不如浅层网络。 - **残差网络结构(Residual Network)**:为了解决退化问题,ResNet提出了一种特殊的残差结构,使网络能够有效叠加更多的层而不会降低性能。 **3.4 构建残差块** - **building block结构**:基本的残差块结构。 - **bottleneck结构**:更高效的残差块结构,通常用于更深的网络中。 - **实现残差块**:通过定义`make_layer`函数实现残差块的构建,其参数包括上一个残差网络输出的通道数、残差网络输入的通道数、残差网络块堆叠的个数和卷积移动的步幅等。 **3.5 ResNet50架构** ResNet50是一个50层的深度残差网络,由以下主要部分构成: - **conv1**:输入图片大小为32x32,输入channel为3。经过卷积核数量为64,卷积核大小为7x7,stride为2的卷积层;然后通过Batch Normalization层;最后通过ReLU激活函数。输出feature map大小为16x16,输出channel为64。 - **conv2_x**:输入feature map大小为16x16,输入channel为64。输出feature map大小为8x8,输出channel为256。 - **conv3_x**:输入feature map大小为8x8,输入channel为256。输出feature map大小为4x4,输出channel为512。 - **conv4_x**:输入feature map大小为4x4,输入channel为512。输出feature map大小为2x2,输出channel为1024。 - **conv5_x**:输入feature map大小为2x2,输入channel为1024。输出feature map大小为1x1,输出channel为2048。 - **average pool & fc**:输入channel为2048,输出channel为分类的类别数。 通过以上介绍可以看出,卷积神经网络尤其是ResNet网络,是图像识别和分类任务中非常强大的工具。通过合理设置卷积核、步长、填充等参数,结合批量归一化、残差块等技术,可以显著提升模型的性能和鲁棒性。
身份认证 购VIP最低享 7 折!
30元优惠券
没用的程序员
  • 粉丝: 103
  • 资源: 23
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜

最新资源