没有合适的资源?快使用搜索试试~ 我知道了~
基于特征排列和空间激活的显著物体检测方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 171 浏览量
2023-02-23
20:07:58
上传
评论
收藏 489KB DOCX 举报
温馨提示
试读
11页
基于特征排列和空间激活的显著物体检测方法.docx
资源推荐
资源详情
资源评论
1. 引言
在信息时代,随着视频技术及其应用的飞速发展,视频、图像等视觉信息载体变得更
加实用,应用更加广泛
[1]
。由于视频和图像主要是供人眼观察的,人眼敏感的图像对象被
称为显著对象,例如图像中明亮的颜色、高速运动、闪烁的爆炸等图像区域。
在视觉显著性研究的早期,研究人员提出了自主注意力和非自主注意力
[2]
。一些研究
者试图理解视频中眼球运动的时域效应,而另一些研究者则关注于剪辑点,比如电影场景
的变化对视觉意义
[3]
的影响。1980 年 Treisman 和 Gelade
[4]
提出了特征集成理论。后来,
Koch 和 Ullman
[5]
提出了将正演模型和显著性图集成的概念。显著性图是一种用来表示对图
像中每个点的关注程度的方法。显著性图的第 1 个实现是由 Itti 等人
[6]
提出的,他们提出了
第 1 个完整的人类注意力模型。由于当前深度学习的流行,基于卷积神经网络的视觉显著
性计算方法也得到了广泛的关注和发展。
本文提出一种基于卷积神经网络的视觉显著性目标检测方法,它与当前的主流模式有
很大的不同,例如典型的学习像素上下文注意力的显著性检测(learning Pixel-wise
Contextual AtteNtion for saliency detection, PiCANet)
[7]
和反注意力显著目标检测(Reverse
Attention for Salient object detection, RAS)
[8]
更注重模型的训练方式,在多超参数搜索空间内
进行组合,得到更合适的全局最优收敛结果;轮廓知识迁移显著目标检测(Contour
knowledge transfer for Salient object detection, C2S-Net)
[9]
采用了弱监督进行学习,减少对显
著物体标注数据的依赖,获得更加泛化和自适应的模型;边缘指导的显著物体检测
(Boundary-Aware Salient object detection, BASNet)
[10]
更加关注目标的显著边缘,通过同时预
测边缘和区域,整合信息获得更精确的结果;而针对快速准确显著物体检测的级联局部解
码器(Cascaded Partial Decoder for fast and accurate salient object detection, CPD)
[11]
丢弃低分辨
率特征图,在加速计算的同时,保留了浅层网络提取的细节空间特征;一种基于池化设计
的实时显著物体检测(a simple Pooling-based design for real-time salient object detection,
PoolNet)
[12]
采用了多种学习监督的路径,利用不同的损失函数进行搭配,整合了多种训练
特点。基于多实例重学习的显著物体检测(salient object detection via Multiple Instance Joint
Re-learning, MIJR)
[13]
创建了一种基于真值图的实例化过程,并以主流算法为基础进行了全
面的指标提升;显著物体检测的标签解耦框架(Label Decoupling Framework for salient object
detection, LDF)
[14]
提出了一种主体和细节的解耦合模型,利用特征信息的自交互完善预测结
果,并对主体和细节信息进行迭代;多尺度交互的显著物体检测网络(Multi-scale Interactive
Network for salient object detection, MINet)
[15]
利用相邻尺度特征图扩大感受野来替代拼接,
一定程度上减少了参数的冗余,规避了相邻尺度带来的噪声,达到了较好的效果;对抗攻
击的鲁棒显著物体检测(RObust SAlient object detection against adversarial attacks, ROSA)
[16]
则是另辟蹊径,利用白盒攻击的方法对抗现有的显著目标检测模型,引入新的更容易分辨
的噪声,来打破难以分辨的对抗扰动的结构,而不是试图直接去除对抗扰动,从而保证了
框架的泛化;基于反注意力的显著物体检测网络(Reverse Attention based Residual network
for salient object detection, RAR)
[17]
则是将流程分为双向,一个输出粗粒度的预测并计算损
失进行监督,再利用残差学习不断纠正神经网络模型的预测错误,不断完成自我修正。
区别于目前的显著目标检测方法,本文重点关注图像在不同层次特征空间内的隐含信
息,方法在卷积神经网络(Convolutional Neural Networks, CNN)模型中建立一个特征金字塔
结构,将金字塔中不同层次的特征交叉融合,在不同组融合的过程中对特征图进行重新排
列,增强了模型学习策略对图像中不同场景下显著性目标的鲁棒性,模型可以得到更好的
图像空间全局分布和高频细节的结果;另一方面,利用对空间上下文信息更加敏感的
FReLU 激活函数,来替代传统的 ReLU 激活函数,对空间信息进行激活,抓取像素的空间
活性(也就是空间的敏感性信息)。
2. 模型框架
本文算法提出的整体神经网络模型数据流程如图 1 所示。原始红绿蓝(Red Green Blue,
RGB)图像首先送入基于 ResNet-50 主干网络(图 1 中粉色部分)的自编码结构,得到不同尺
寸和通道数的特征金字塔结构,接着进行特征排列,使得尺度表征差距尽可能大并按照排
列后的顺序完成拼接融合,再送入双重卷积残差模块进行特征图的空间激活,最终将这些
特征图整合到一起,输出得到显著物体预测结果,并利用二元交叉熵(Binary Cross Entropy,
BCE)和交并比(Intersection Over Union, IOU)损失函数进行监督。
图 1 模型整体结构
下载: 全尺寸图片 幻灯片
接下来对各部分模块进行分析说明。
2.1 特征金字塔
本文模型利用 ResNet-50 作为模型主干
[18]
,如图 2 所示,生成 5 个不同尺度层级的特
征图,这些特征图有着不同的大小,也代表着不同复杂度的特征信息,这是一个信息编码
过程。接着将得到的 5 个特征图送入按照尺寸顺序如图 1 左侧所示进行上采样和连接,进
行解码操作,这就完成了一套自编码操作。自编码的流程是先对输入原始图像进行特征编
码,也就是使图像在卷积作用下尺寸减小而通道数增大,获取高级语义信息,也就是编码
器;接下来,对得到的小尺寸、大通道数特征图进行上采样,恢复到更高的分辨率,从语
义信息解码得到包含更多信息的空间信息,也就是解码器
[19]
。
图 2 自编码结构
下载: 全尺寸图片 幻灯片
自编码器的特征组合方式为按照特征图尺寸从小到大顺序,对自身上采样并与相邻特
征图进行整合拼接,具体的上采样和整合顺序参考图 1 左侧部分,上采样采用了 UP 标
志,拼接采用了“+”号进行表示,是一个标准的 U 型结构,将特征图按照尺寸从小到大进
行排列,便得到了图 1 中的 A/B/C/D/E 的特征金字塔
[20]
。
2.2 特征排列
在得到了 A/B/C/D/E 这 5 个不同层级的特征图后,将其每 3 个分为 1 组,得到共计 10
组特征图组 G
n
(G
1
=[A, B, C], G
2
=[A, B, D], ···, G
10
=[C, D, E])。接着引入尺度表征(Scale
Representation, SR)的概念,对于每一个特征图 F
i
,都有着不同的高度 H、宽度 W 以及通道
数 C,而 2 维数组 SR
i
便是代表这个特征图在长宽和通道数这两个维度上的尺度
[Math Processing Error]SRi=[floor(log2Hi+log2Wi),log2Ci]
(1)
前面提到的 10 组特征图组,每个组内的 3 张特征图都有着各自的尺度表征(Scale
Distance, SD),这时对每相邻的两个特征图求取差值的 2 范数,便得到了 2 个尺度表征差
([Math Processing Error]ΔSR),如式(2)所示,其中的 i, j, k 为组内特征图索引,i 和 j 相邻,
j 和 k 相邻
[Math Processing Error]ΔSRi,j=‖SRi−SRj‖2,ΔSRj,k=‖SRj−SRk‖2
(2)
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3551
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现多车辆车辆路径问题,用遗传算法编程,保证可用.rar
- 基于matlab实现多层极限学习机实现手写体识别,准确率超过99%.rar
- 基于matlab实现电力系统最优潮流程序,可以应用于电力市场下的最优潮流计算 适合电力系统专业的同仁使用.rar
- 串行通信的通信协议串口协议串行通信的通信协议串口协议
- Vue构建交互式的单页面应用程序Vue构建交互式的单页面应用程序
- Spring Boot快速搭建和部署应用程序
- Redis开源的高性键值存储系统广泛应用于缓存、实时消息传递
- Qt跨平台的应用程序开发框架Qt跨平台的应用程序开发框架
- 单片机是集成处理器、存储器和输入输出设备
- 深度学习机器习方法模仿人脑神经网络深度学习机器习方法模仿人脑神经网络
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功