卷积神经网络概述
卷积神经网络(Convolutional Neural Networks,CNN)是深度学习和机器学习领域的一种热门技术,广泛应用于图像识别、文本识别、语音识别等领域。该技术的发展可以追溯到20世纪60年代,H ubel和Wiesel在研究猫脑皮层中发现了用于局部敏感和方向选择的神经元结构,卷积神经网络就是在此生物学基础上发展而来的。
卷积神经网络的发展可以分为三个阶段:初步探索阶段、全面兴起阶段和跃进试发展阶段。初步探索阶段始于1970年代,福岛邦彦成功开发了一种浅层自组织神经网络认知机J。随后,更多的科研工作者对该网络进行了改进。认知机及其变种并不是真正意义上的深度学习模型,因为网络层数少,不能进行深度学习特征。
全面兴起阶段始于LeNet-5的出现,LeCun等人提出了LeNet-5,采用基于梯度的反向传播算法对网络进行有监督的训练,LeNet-5在手写字符识别领域的成功应用引起了学术界对卷积神经网络的关注。同一时期,卷积神经网络在语音识别、物体检测、人脸识别等领域的研究也逐渐开展起来。
跃进试发展阶段始于AlexNet的出现,AlexNet的出现是卷积神经网络的一个历史性时刻,之后卷积神经网络在AlexNet的基础上衍生出许多变种。2012年,Krizhevsky等人提出了AlexNet,使得卷积神经网络成为学术界的焦点。AlexNet之后,不断有新的卷积神经网络模型被提出,并且卷积神经网络不断与一些传统算法相融合,加上迁移学习方法的引入,使得卷积神经网络的应用领域获得了快速的扩展。
卷积神经网络的结构基础是卷积层、池化层和最后的全连接层,所有的卷积神经网络模型都是在此结构上搭建的。卷积层的运算由特征提取阶段和特征映射阶段构成。在特征提取阶段,每个神经元的输入与前一层的局部接受域相连,使用卷积滤波器做卷积操作,提取出该局部的特征。在特征映射阶段,使用激活函数将其映射成一个归一化的值。
池化层的作用是将高维特征转换成低维的有代表的特征,避免过拟合。一般的采样分为最大采样和平均采样。在2x2的区域内两个人池化操作的运算公式为(3-3)。