没有合适的资源?快使用搜索试试~ 我知道了~
基于区块自适应特征融合的图像实时语义分割.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 179 浏览量
2023-02-23
20:19:29
上传
评论 2
收藏 559KB DOCX 举报
温馨提示
试读
18页
基于区块自适应特征融合的图像实时语义分割.docx
资源推荐
资源详情
资源评论
图像语义分割(Semantic segmentation) 是一种重要的智能感知方法, 在无人驾驶、医疗
图像识别等方面有重要的应用价值. 图像语义分割是将图像中不同物体的像素区域分开, 并
对每一块区域的类别进行标注.
针对这类问题, 早期以常规图像处理方法为主
[1-2]
, 即通过阈值优化、分水岭算法等常
规方法进行图像区域分割, 再结合几何形状、纹理等特征对区域进行分类标注. 随着统计学
和智能化方法的应用, 概率图模型
[3]
、机器学习
[4]
等方法逐渐用于图像语义识别. 这类方法
适用于特定场景的识别分类, 例如: 车牌识别、细胞分割等, 但应用场景较为简单, 难以适
用于复杂场景. 近些年, 深度卷积神经网络(Convolutional neural networks, CNN)
[5]
逐渐在图
像语义分割中得到应用, 大幅度提升语义分割算法的准确性和普适性. 因此, 基于深度学习
的语义分割方法受到国内外学者的广泛关注. 最初, 等
[6]
针对 CNN 中输出维度下降的问题,
采用转置卷积
[7]
、双线性插值(Bilinear interpolation)
[8]
方法扩大 CNN 网络的输出维度, 实现
了图像的像素级分类. 进一步, 文献[9-11]在此基础上引入轻量卷积神经网络, 提出了一种
快速语义分割模型, 大幅度降低全卷积网络的运算量, 实现了在嵌入式设备上进行实时语义
分割.
然而图像经过 CNN 模型处理后, 其维度与分辨率下降, 导致图像局部细节无法准确分
割. 针对该问题, 研究者提出前后子特征融合(Context embedding) 方法
[12-14]
, 其中最具代表
性的是跳跃连接结构 SkipNet 模型
[6]
. 该方法将 CNN 网络的深层与浅层特征进行融合, 使
得输出中融入浅层的细节特征, 改善输出精度. 但是文献[15]指出, 卷积层的局部感受野
(Receptive field)
[16]
与分割物体的面积相匹配才能取得良好的预测准确度, 而卷积层的感受野
随着网络深度的改变而不同. 因此, CNN 中的卷积层对物体具有不同的预测准确度, 然而
SkipNet 进行特征融合时, 对特征图直接求和得到输出, 这样对输入特征的无差别叠加, 忽
视不同特征层的分割特点, 导致模型精度降低.
在街景识别等语义分割任务中, 由于透视等原因导致不同区域中物体面积的差异, 为
避免感受野与局部的场景物体失配问题, 针对 SkipNet 模型, 本文提出一种区块自适应特征
融合(Block adaptive feature fusion, BAFF) 方法. BAFF 具有如下特点: 1) 对输入的特征图进
行分块, 每个区块赋予不同的权重并进行加权融合, 这样处理可以防止图像区域差异导致的
局部感受野与物体失配问题; 2) 构建权值计算网络, 通过训练该网络, 计算出每个区块的权
重, 从而对不同卷积层进行自适应权重分配; 3) 采用通道分离形式进行卷积, 使得网络在准
确度提高的同时降低了网络的参数量与运算量, 从而提高网络的运行速度. BAFF 结构如图
1 所示, 图 1 (a)表示 BAFF 方法中的区块加权操作, 图 1 (b)表示本文提出的 BAFF 特征融合
方法, 图 1 (c)表示常规 SkipNet 的特征融合方法.
图 1 区块特征融合与 SkipNet 叠加融合对比图
Fig. 1 The comparison chart of block feature fusion and SkipNet additive fusion
下载: 全尺寸图片 幻灯片
1. 相关研究
1.1 基于深度学习的实时语义分割网络
深度学习(Deep learning, DL)
[5]
是由 Hinton 首次提出, 当前在各个领域有着广泛的应用.
DL 通过多层神经网络, 逐层提取对象特征, 并输出对象的抽象高层信息, 具有极其优异的
学习能力. CNN 是典型的 DL 模型, 主要应用于图像处理领域. CNN 利用图像的空间局部关
联性, 使用卷积进行特征提取, 大大减少参数量与运算量. 目前 CNN 主要由卷积—池化层
(Convolution-pooling) 组合而成, 并插入 BN 层(Batch normalization)
[17]
增强网络性能.
为了提高 CNN 运行速度, 近些年有研究者提出深度可分离卷积(Depthwise separable
convolution, DSC)
[18]
方法. DSC 网络对输入的特征图逐个采用卷积进行运算, 再由[Math
Processing Error]1×1 卷积将特征映射到输出层, 该方法运行速度快, 可以搭建实时性较好
的 CNN 网络. 文献[19] 提出的 MobileNet_v2 模型就是基于 DSC 搭建的一种实时网络, 将
其应用于语义分割, 可大幅减少模型的运算量.
由于 CNN 网络输出的维度下降, 仅能识别物体大致类别, 还需进一步对维度还原才可
能实现像素级语义分割. 目前有两类维度还原方法, 一种是编码解码结构
[20]
, 另一种是基于
膨胀卷积
[21]
的模型. 相较于后者, 编码解码结构压缩了卷积层维度, 因而运算量较少, 更适
用于实时语义分割, 其结构如图 2 所示. 其中编码结构由 CNN 网络组成用于特征提取, 解
码结构由转置卷积组成用于维度还原, 而跳跃连接结构则是融合前后文特征改善网络精度.
文献[14]基于该结构, 采用轻量卷积网络作为编码结构模型, 使用基于 SkipNet 的解码结构,
大幅提高了网络的运行速度, 实现了实时语义分割.
图 2 编码—解码结构
Fig. 2 The structure chart of encoding-decoding
下载: 全尺寸图片 幻灯片
1.2 不同感受野下的语义分割特征
在 CNN 网络中, 卷积层用于提取图像特征, 而不同卷积层的特征表达能力有所差异.
本文结合 CNN 网络的局部感受野, 分析卷积层的分割特点, 以探讨特征图的融合方法. 由
于 CNN 网络采用局部连接方式, 其输出的神经元只与输入层的部分区域相关联. 该部分关
联区域称作感受野, 可知输出神经元的信息均来自感受野区域的图像. 对于语义分割来说,
感受野区域越大, 则输出包含的整体信息越多, 分割越体现整体性; 相反感受野越小, 输出
越体现局部性.
剩余17页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3655
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 写入三菱plcD位寄存器的值
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- HDMI 虚拟软件欺骗器
- 确保你的操作系统符合Docker的要求 Docker支持的操作系统包括Ubuntu、Debian、CentOS、Fedora和m
- 读取三菱PLC D位寄存器
- HDMI edid 编辑工具
- 要在你的计算机上安装Docker,你可以按照以下步骤进行:
- 要在你的计算机上安装Docker,你可以按照以下步骤进行:
- html加JavaScript进行表单验证
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功