没有合适的资源?快使用搜索试试~ 我知道了~
多维注意力特征聚合立体匹配算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 62 浏览量
2023-02-23
16:49:00
上传
评论
收藏 1.31MB DOCX 举报
温馨提示
试读
19页
多维注意力特征聚合立体匹配算法.docx
资源推荐
资源详情
资源评论
计算两个输入图像上对应像素的相对水平立体匹配对于理解或重建 3D 场景至关重要,
广泛应用于自动驾驶
[1]
、无人机
[2]
、医学成像和机器人智能控制等领域. 通常, 给定一对校
正后的图像, 立体匹配的目标是位移, 即视差.
近年来, 基于深度学习的立体匹配算法研究已取得重大进展, 相比传统方法
[3-4]
, 可从
原始数据理解语义信息, 在精度和速度方面有着显著优势. 早期基于深度学习的方法
[5-6]
是
经卷积神经网络(Convolutional neural network, CNN)获得一维特征相关性度量之后, 采用一
系列传统的后处理操作预测最终视差, 无法端到端网络训练. 随着全卷积神经网络(Fully
convolutional networks, FCN)的发展
[7]
, 研究者们提出了将端到端网络整合到立体匹配模型
中
[8-16]
. 对于全卷积深度学习立体匹配网络, PSMNet
[17]
提出一种空间金字塔池化模块, 扩大
深层特征感受野, 提取不同尺度和位置的上下文信息. CFPNet
[18]
在金字塔模块基础上引入扩
张卷积和全局平均池化扩大感受野, 使其更有效地感知全局上下文信息. MSFNet
[19]
利用多
尺度特征模块, 通过级联融合不同层级的特征捕获细节和语义特征. 除了以上对特征提取网
络的研究之外, 在代价聚合中, 第一个端到端视差估计网络 DispNet
[20]
提出沿视差方向计算
一维相关性的匹配代价计算方法. 由于仅沿着一个维度计算相关性, 损失了其余多个维度的
有效信息, 因此为了更好地利用多维度的上下文语义特征, Kendall 等
[21]
提出了 GC-Net, 通
过采用 3D 编解码结构在三个维度上理解全局语义信息. 受 GC-Net 启发, 众多学者提出了
多种变体来正则化代价体, 建模匹配过程, 例如, 结合 2D 和 3D 卷积运算的多维聚合子网
络
[22]
、多尺度残差 3D 卷积模块
[23]
、堆叠 3D 沙漏结构
[17, 24]
等. 尽管上述方法在视差估计中
已取得长足进步, 但在网络学习推理过程中, 图像特征和代价体特征的多层级多模块交互利
用仍存在不足, 缺乏全局网络信息的长距离依赖, 导致网络不具有敏锐的鉴别性能, 准确估
计视差依然极具挑战性.
随着注意力机制在多种研究任务, 如语义分割
[25]
、 自然语言处理
[26]
、超分辨率
[27]
等方
面的广泛应用, 注意力机制在立体匹配网络中引起了关注
[28-30]
. 其中, 基于 SE-Net
[31]
的扩张
空间金字塔注意力模块
[28]
虽然采用降维减小了计算成本, 但是降维的同时导致特征通道与
其权重之间的对应是间接的, 降低了通道注意力的学习能力. MRDA-Net
[30]
只在 2D 特征提
取网络末端和 3D 编解码网络末端引入单一池化 3D 注意力模块来整合全局信息, 无法做到
多模块信息交互, 导致网络获取显著信息不充分. 综上, 由于 2D 图像特征为 3D 张量, 3D
代价体特征为四维张量, 两者之间的维度差异使常规注意力方法无法同时应用于特征提取
与代价聚合这两个子模块中, 注意力机制在立体匹配网络中应用较少、方式单一, 从而整个
立体匹配网络缺乏有效协同的注意力机制, 对长距离上下文信息无法做到多模块多层级关
注.
考虑上述问题, 本文在 Gwc-Net
[24]
的基础上提出一种多维注意力特征聚合立体匹配算
法, 通过对特征提取和代价聚合两个子模块设计不同的注意力方法, 从多模块多层级的角度
去理解关注整个网络传输过程中的上下文信息. 设计 2D 注意力残差模块, 使用无降维自适
应 2D 通道注意力, 逐像素提取和融合更全面有效的信息特征, 学习局部跨通道间的相关性,
自适应关注通道间的区别信息. 提出 3D 注意力沙漏聚合模块, 利用 3D 平均池化和 3D 最
大池化构建 3D 通道注意力, 将其嵌入多个子编解码块的末端, 重新校准来自不同模块的多
个代价体, 整合多模块输出单元计算匹配代价.
1. 多维注意力特征聚合立体匹配算法
所提算法主要包括 2D 注意力残差模块, 联合代价体, 3D 注意力沙漏聚合模块. 算法网
络结构如图 1 所示. 2D 注意力残差模块对输入左图像${{{I}}_{\rm{l}}}$和右图像
${{{I}}_{\rm{r}}}$进行特征提取, 将提取的特征用于构建联合代价体, 采用 3D 注意力沙
漏聚合模块计算匹配代价, 最终通过视差回归函数输出预测视差.
图 1 算法网络结构图
Fig. 1 Architecture overview of proposed algorithm
下载: 全尺寸图片 幻灯片
1.1 2D 注意力残差模块
为保留网络的低级结构特征以提取左右图像的细节信息, 首先构建 3 个卷积核尺寸为
3×3 的滤波器获取浅层特征, 输出特征图尺寸为${1 / 2}H \times {1 / 2}W \times 32$. 然后,
采用基本残差块 conv1_x, conv2_x, conv3_x 和 conv4_x 逐像素提取深层语义信息. 其中,
conv1_x, conv2_x, conv3_x 和 conv4_x 包含的基本残差单元个数分别为 3, 16, 3 和 3. 每个残
差块由两个卷积核尺寸为 3 × 3 的 2D 卷积、批归一化(Batch normalization, BN)层和线性整
流 (Rectified linear unit, ReLU)激活层组成
[17]
. 级联 conv2_x, conv3_x 和 conv4_x, 融合低级
结构信息和高级语义信息, 构建尺寸为${1 / 4}H \times {1 / 4}W \times 320$的特征表示. 该
模块共 53 层, 输出左特征图${{{F}}_{\rm{l}}}$和右特征图${{{F}}_{\rm{r}}}$的尺寸均为
${1 / 4}H \times {1 / 4}W \times 320$, 具体参数设置如表 1 所示.
表 1 2D 注意力残差单元和联合代价体的参数设置(D 表示最大视差, 默认步长为 1)
Table 1 Parameter setting of the 2D attention residual unit and combined cost volume
(D represents the maximum disparity. The default stride is 1)
层级名称
层级设置
输出维
度
${ { { {{F} }_{\rm{l}}} } /
{ { {{F} }_{\rm{r}}} } }$
卷积核尺寸, 通道数, 步
长
H
×
W
×
3
2D 注意力残差模块
Conv0_1
$3 \times 3,32,$ 步长
= 2
${1 /
2}H
\times
{1 /
2}W
\times
32$
Conv0_2
$3 \times 3,32,$
${1 /
2}H
\times
{1 /
2}W
\times
32$
Conv0_3
$3 \times 3,32,$
${1 /
2}H
\times
{1 /
2}W
\times
32$
Conv1_x
$\left[ \begin{aligned
} 3 \times 3,32 \\ 3
\times 3,32
\end{aligned} \right]
\times 3$
${1 /
2}H
\times
{1 /
2}W
\times
32$
Conv2_x
$\left[ \begin{aligned
} 3 \times 3,32 \\ 3
\times 3,32
\end{aligned} \right]
\times 16$, 步长 = 2
${1 /
4}H
\times
{1 /
4}W
层级名称
层级设置
输出维
度
\times
64$
Conv3_x
$\left[ \begin{aligned
} 3 \times 3,32 \\ 3
\times 3,32
\end{aligned} \right]
\times 3$
${1 /
4}H
\times
{1 /
4}W
\times
128$
Conv4_x
$\left[ \begin{aligned
} 3 \times 3,32 \\ 3
\times 3,32
\end{aligned} \right]
\times 3$
${1 /
4}H
\times
{1 /
4}W
\times
128$
${ {{F} }_{\rm{l}}}$/${ {{F} }_{\rm{
r}}}$
级联: Conv2_x,
Conv3_x, Conv4_x
${1 /
4}H
\times
{1 /
4}W
\times
320$
联合代价体
${ {{F} }_{{\rm{gc}}} }$
—
${1 /
4}D
\times
{1 /
4}H
\times
{1 /
4}W
\times
40$
${\tilde {{F} }_{\rm{l}}}$/${\tilde
{{F} }_{\rm{r}}}$
$\left[ \begin{aligned
} 3 \times 3,128 \\ 1
\times 1,{\rm{ } }12
\end{aligned} \right]$
${1 /
4}H
\times
{1 /
4}W
剩余18页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3652
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功