书书书
第
42
卷
第
3
期
2019
年
3
月
计
算
机
学
报
CHINESE
JOURNAL
OF
COMPUTERS
Vol.42 No.3
Mar.2019
收稿日期
:
2016
-
06
-
22
;
在线出版日期
:
2017
-
09
-
18.
本课题得到国家
“
九七三
”
重点基础研究发展规划项目基金
(
2015CB351705
)、
国家自然
科学基金重点项目
(
61332018
)、
国家自然科学基金青年科学基金项目
(
61703344
)、
中央高校基本科研业务费专项资金
(
3102017OQD021
)
资
助
.
张
顺
,
男
,
1987
年生
,
博士
,
助理教授
,
主要研究方向为计算机视觉和机器学习
.E
-
mail
:
szhan
g
@
nw
p
u.edu.cn.
龚怡宏
,
男
,
1963
年
生
,
博士
,
教授
,
博士生导师
,“
国家千人计划
”
专家
,
主要研究领域为多媒体内容分析
、
机器学习和模式识别
.
王进军
,
男
,
1977
年生
,
博士
,
教授
,
博士生导师
,
中国计算机学会
(
CCF
)
会员
,
主要研究领域为模式识别
、
机器学习和多媒体计算
.
深度卷积神经网络的发展及其在
计算机视觉领域的应用
张
顺
1
)
龚怡宏
2
)
王进军
2
)
1
)
(
西北工业大学电子与信息学院
西安
710072
)
2
)
(
西安交通大学人工智能与机器人研究所
西安
710049
)
摘
要
作为类脑计算领域的一个重要研究成果
,
深度卷积神经网络已经广泛应用到计算机视觉
、
自然语言处理
、
信息检索
、
语音识别
、
语义理解等多个领域
,
在工业界和学术界掀起了神经网络研究的浪潮
,
促进了人工智能的发
展
.
卷积神经网络直接以原始数据作为输入
,
从大量训练数据中自动学习特征的表示
.
卷积神经网络具有局部连
接
、
权值共享和池化操作等特性
,
可以有效降低网络复杂度
,
减少训练参数的数目
,
使模型对平移
、
扭曲
、
缩放具有
一定程度的不变性
.
目前
,
深度卷积神经网络主要是通过增加网络的层数
,
使用更大规模的训练数据集
,
以及改进
现有神经网络的网络结构或训练学习算法等方法
,
来模拟人脑复杂的层次化认知规律
,
拉近与人脑视觉系统的差
距
,
使机器获得
“
抽象概念
”
的能力
.
深度卷积神经网络在图像分类
、
目标检测
、
人脸识别
、
行人再识别等多个计算机视
觉任务中都取得了巨大成功
.
该文首先回顾了卷积神经网络的发展历史
,
简单介绍了
M
-
P
神经元模型
、
Hubel
-
Wiesel
模型
、
神经认知机
、
用于手写识别的
LeNet
以及用于
Ima
g
eNet
图像分类比赛的深度卷积神经网络
.
然后详细分析
了深度卷积神经网络的工作原理
,
介绍了卷积层
、
采样层
、
全连接层的数学表示及各自发挥的作用
.
接着该文重点
从以下三个方面介绍卷积神经网络的代表性成果
,
并通过实例展示各种技术方法对图像分类精度的提升效果
.
从
增加网络层数方面
,
讨论并分析了
AlexNet
、
ZF
-
Net
、
VGG
、
Goo
g
LeNet
和
ResNet
等经典卷积神经网络的结构
;
从
增加数据集规模方面
,
介绍了人工增加标注样本的难点以及使用数据扩增技术对神经网络性能提升的作用
;
从改
进训练方法方面
,
介绍了包括
L2
正则化
、
Dro
p
out
、
Dro
p
Connect
、
Maxout
等常用的正则化技术
,
Si
g
moid
函数
、
tanh
函数以及
ReLU
函数
、
LReLU
函数
、
PReLU
函数等常用的神经元激活函数
,
softmax
损失
、
hin
g
e
损失
、
contrastive
损失
、
tri
p
let
损失等不同损失函数
,
以及
batch
normalization
技术的基本思想
.
针对计算机视觉领域
,
该文重点介绍
了卷积神经网络在图像分类
、
目标检测
、
人脸识别
、
行人再识别
、
图像语义分割
、
图片标题生成
、
图像超分辨率
、
人体
动作识别以及图像检索等方面的最新研究进展
.
从人类视觉认知机制出发
,
分析了视觉信息分层处理和
“
大范围优
先
”
视觉认知过程的相关理论成果和对当前计算模型的一些理论启示
.
最后提出了未来基于深度卷积神经网络的
类脑智能研究待解决的问题与挑战
.
关键词
类脑智能
;
神经网络
;
深度学习
;
计算机视觉
;
视觉认知
中图法分类号
TP18
DOI
号
10.11897
/
SP.J.1016.2019.00453
The
Develo
p
ment
of
Dee
p
Convolution
Neural
Network
and
Its
A
pp
lications
on
Com
p
uter
Vision
ZHANG
Shun
1
)
GONG
Yi
-
Hon
g
2
)
WANG
Jin
-
Jun
2
)
1
)
(
School
o
f
Electronics
and
In
f
ormation
,
Northwestern
Pol
y
technical
Universit
y
,
Xi
’
an
710072
)
2
)
(
Institute
o
f
Arti
f
icial
Intelli
g
ence
and
Robotics
,
Xi
’
an
Jiaoton
g
Universit
y
,
Xi
’
an
710049
)
Abstract
As
the
im
p
ortant
research
achievement
,
dee
p
convolutional
neural
networks
have
been
widel
y
a
pp
lied
to
various
fields
such
as
com
p
uter
vision
,
natural
lan
g
ua
g
e
p
rocessin
g
,
information
retrieval
,
s
p
eech
reco
g
nition
,
semantic
understandin
g
,
and
have
attracted
a
wave
of
neural
评论0