没有合适的资源?快使用搜索试试~ 我知道了~
Transformer架构下的稠密NRSfM网络实现.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 121 浏览量
2022-06-18
16:45:28
上传
评论
收藏 2.41MB DOCX 举报
温馨提示
试读
14页
Transformer架构下的稠密NRSfM网络实现.docx
资源推荐
资源详情
资源评论
引言
二维图像投影和潜在三维场景的关系研究在光学和摄影领域已有着悠久的历史
[
]
,而 (
)则是一种通过单目摄像头对非刚体运动序列重建三维非刚体表面的
算法。传统的 算法在稀疏特征点轨迹三维结构重建任务上取得了不错效果,但是稀疏特征点
表示能力有限,不能完整重建三维非刚体表面。稠密的 算法是对大量的特征点轨迹进行三维
重建,它能很好地恢复完整的三维非刚体表面,相较于稀疏的 算法而言更实用,因此稠密的
算法顺理成章地成为现阶段 算法研究的重点。
传统的稠密 算法通常十分依赖于二维稠密光流质量,需要噪音足够小的二维稠密光流才能进
行较好的重建。因此,传统稠密 算法的鲁棒性并不高,且需要十分苛刻的条件才能保证重建
精度。
在 最 近 研 究 中 , 等
[
]
首 次 提 出 可 学 习 的 稠 密 神 经 网 络 (
,)。与传统稠密 算法相比,该模型的鲁棒性更高,可
扩展性更强且在许多场景中都能实现较低的三维重建误差。但是他们的方法需要分别训练用于三维重
建的解码器和用于图像特征提取的编码器,且只对隐藏层编码进行周期性约束以提取运动信息,导致
网络对突然较大的变化不能作很好的处理。并且,网络依赖于 分解
[
]
求得三维刚性
形状,因此对误差较大的二维运动轨迹十分敏感。
由于传统的稠密 算法和可学习的稠密 神经网络各有优缺点,本文考虑将传统三维稠
密重建算法和神经网络高度结合,将三维重建过程嵌入神经网络学习中,提出基于 改
进的稠密三维运动重建网络。
[
]
架构一个序列到序列的模型,它使用大量的自注意力
机制提取序列之间的信息。此架构解决了传统 难以并行化的缺点,可以处理长序列数据,避免
了 梯 度 消失 和 梯 度 爆 炸 等 问 题 。 由 于 强 大 的 特 征 表 达 能 力 , 近 年 来 各 种 架 构 的
被用于计算机视觉方面的研究。同时, 架构中的注意力机制运算规则与
三维重建任务较为相似,特别适合进行改造以用于三维重建任务求解。
考虑到单目视觉的非刚体三维重建是提取特征点轨迹的特征,并进行求解的过程,也可以将其看作是
一个序列化的特征求解问题。因此,本文尝试使用 架构求解稠密三维重建问题。本文
创新点如下:①由于测量矩阵本身反应特征点是随时间变化的运动轨迹,且因式分解方法只需提取出
形状基,不需位置信息,因此本文直接将测量矩阵作为网络输入;②将三维重建任务所需中间矩阵作
为查询矩阵、键矩阵和值矩阵。将三维重建任务嵌入 架构进行求解,同时添加适当的
约束;③单个注意力点积计算之后增加 伪逆操作替代传统的点积注意力,通过对多
个注意力头的输出结果进行线性组合,得到多头注意力的输出; ④类似 中解码器的方法,
将 中的 层用于对 S 矩阵添加时空平滑、表面平滑等约束,使用漏斗形全连接网络
约束形状矩阵的低秩性。
相关工作
采用传统方法进行 问题研究,目前已有许多解决方案,可以从多帧的二维关键点中恢复必要
变形对象的三维视点及形状
[
!
]
。然而,由于非刚性物体在发生运动时会发生形变,导致 实
际上拥有较多约束,这也对正确分解三维视点和形状构成了极大挑战。因此,利用形状和摄像机运动
的先验知识降低 问题的难度成为研究的主流方法,比如假设在时间和空间域上使用低秩子空
间
[
"
]
,又比如将二维特征点拟合到一组预先设计的 #$ 基函数中
[
]
、时空域模型
[
!
,
]
、利用时
空间联合中添加稀疏子空间聚类的形式
[
!
,
%
,
]
。
近年来,一些学者鉴于神经网络在许多领域的优良表现,尝试利用神经网络进行非刚体三维重建的求
解。然而,在训练神经网络时,对大量图像进行三维姿态的标注是非常繁重且困难的一项工作。因此 ,
文献[&]提出利用合成图像对训练数据进行增强处理,但这些办法并不能很好地应用于现实场景。
于是,研究者开始使用 # 的姿态注释
[
'!
]
、动作标签
[
"
]
等方式,以提高算法性能,可是这些方法
也差强人意。因此,找到一种无监督的算法成为研究者们努力的方向。
由于稠密三维真实数据获得需要十分昂贵的仪器,以及大量的数据和复杂且困难的激光建模算法,很
长一段时间以来,基本上不可能有监督地训练出有效的三维重建神经网络。因此,无监督的三维稠密
运动重建成为目前可行性较高的方案。 等
[
]
在 年首次利用无监督的神经网络方法实现稠
密的三维重建,他们从潜在空间中约束了三维运动,无监督地训练神经网络,第一次实现了端到端的
稠密三维重建。但是他们的方法需要复杂的分布训练,且提供隐藏编码的周期性以完成运动信息提取 ,
且需要刚性三维先验,因此方法的限制条件较多,适用性不广。
基于 架构的
传统的三维重建任务可以表示为:
()()
其 中 , 测 量 矩 阵 (*+ , 三 维 形 状 矩 阵 *+ , 旋 转 矩 阵 ),-.//
0/1*+。基于分解的三维重建任务就是根据输入的测量矩阵 (,求得三维形状矩阵 和
旋转矩阵 。
2 各层介绍
在传统的 架构基础上,结合稠密 的特点,本文提出了一种新的可用于稠密
的端到端的 架构。以下将对网络架构进行详细分析说明。
22 将测量矩阵 (( 作为 网络输入
考虑到三维重建任务中需要全局的形状基,而不是只关注相邻帧,本文提出的 架构直
接将包含二维点轨迹信息的测量矩阵 ( 作为 网络的输入,去除了位置嵌入的过程。
22 注意力模型设计
在设计 网络时,注意力层的运算方法是网络设计的重点。需要结合待解决问题的特点
进行分析和设计。本文注意力层模型架构如图 所示。
图 1注意力层架构
Fig. 1Attention layer architecture
下载34原图•54高精图•54低精图
不同于传统的注意力层,直接将输入的线性映射作为查询矩阵 6、键矩阵 和值矩阵 7。
从图 可以看到,本文的注意力层并没有直接使用输入矩阵 (,而是利用 7# 分解求得 ()89:9
中每帧的 89*+,将 89 的转置矩阵线性映射作为输入的查询矩阵 6。将 Gram 校正矩阵
;-*+ 作 为 键 矩 阵 , ;- 通 过 文 献 [ ] 中 提 到 的 零 空 间 向 量 法 进 行 求 解 。 将
(*+ 的转置矩阵作为值矩阵 7。
使用 89 的转置矩阵 89 进行运算是因为对于三维非刚体重建任务而言,时间尺度(帧之间)的特征
更重要。而且如果直接对稠密的特征点 进行映射,会耗费大量的计算资源。
此外,将传统点积注意力中的 < 函数修改为 伪逆函数输出注意力。实际上,
点积注意力操作与求解旋转矩阵 的过程类似,而将 < 函数修改为 伪逆函
数可以直接使用伪逆法求得基本的三维结构。同时,如同传统的 算法,对 ;- 施加如下约束:
;-=)>?@ABC89;-;-8989C;-;-89CDEFAB89C
89C;-;-89CDEGHI;-=)8J;-;-8J8J;-;-8JF8
;-;-8J8J;-;-8J
22 多头注意力模型的设计
本文提出的多头注意力架构如图 所示。多头注意力层将输入的查询矩阵、键矩阵和值矩阵线性映射
成为多个注意力头进行并行计算,如同传统的 。在输出时将各头的输出进行联合线性
组合输出。最终输出 + 尺度的注意力矩阵,提取出测量矩阵时间尺度的信息。
剩余13页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3586
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功