Transformer架构下的稠密NRSfM网络实现.docx资源-CSDN文库

版权申诉

文档资料

121 浏览量 2022-06-18 16:45:28 上传评论收藏 2.41MB DOCX 举报

资源推荐

资源详情

资源评论

引言

二维图像投影和潜在三维场景的关系研究在光学和摄影领域已有着悠久的历史

［



］

，而 （

）则是一种通过单目摄像头对非刚体运动序列重建三维非刚体表面的

算法。传统的  算法在稀疏特征点轨迹三维结构重建任务上取得了不错效果，但是稀疏特征点

表示能力有限，不能完整重建三维非刚体表面。稠密的  算法是对大量的特征点轨迹进行三维

重建，它能很好地恢复完整的三维非刚体表面，相较于稀疏的  算法而言更实用，因此稠密的

 算法顺理成章地成为现阶段  算法研究的重点。

传统的稠密  算法通常十分依赖于二维稠密光流质量，需要噪音足够小的二维稠密光流才能进

行较好的重建。因此，传统稠密  算法的鲁棒性并不高，且需要十分苛刻的条件才能保证重建

精度。

在最近研究中，  等

［



］

首次提出可学习的稠密  神经网络（ 

，）。与传统稠密  算法相比，该模型的鲁棒性更高，可

扩展性更强且在许多场景中都能实现较低的三维重建误差。但是他们的方法需要分别训练用于三维重

建的解码器和用于图像特征提取的编码器，且只对隐藏层编码进行周期性约束以提取运动信息，导致

网络对突然较大的变化不能作很好的处理。并且，网络依赖于  分解

［



］

求得三维刚性

形状，因此对误差较大的二维运动轨迹十分敏感。

由于传统的稠密  算法和可学习的稠密  神经网络各有优缺点，本文考虑将传统三维稠

密重建算法和神经网络高度结合，将三维重建过程嵌入神经网络学习中，提出基于  改

进的稠密三维运动重建网络。

［



］

架构一个序列到序列的模型，它使用大量的自注意力

机制提取序列之间的信息。此架构解决了传统  难以并行化的缺点，可以处理长序列数据，避免

了梯度消失和梯度爆炸等问题。由于  强大的特征表达能力，近年来各种架构的

 被用于计算机视觉方面的研究。同时， 架构中的注意力机制运算规则与

三维重建任务较为相似，特别适合进行改造以用于三维重建任务求解。

考虑到单目视觉的非刚体三维重建是提取特征点轨迹的特征，并进行求解的过程，也可以将其看作是

一个序列化的特征求解问题。因此，本文尝试使用  架构求解稠密三维重建问题。本文

创新点如下：①由于测量矩阵本身反应特征点是随时间变化的运动轨迹，且因式分解方法只需提取出

形状基，不需位置信息，因此本文直接将测量矩阵作为网络输入；②将三维重建任务所需中间矩阵作

为查询矩阵、键矩阵和值矩阵。将三维重建任务嵌入  架构进行求解，同时添加适当的

约束；③单个注意力点积计算之后增加  伪逆操作替代传统的点积注意力，通过对多

个注意力头的输出结果进行线性组合，得到多头注意力的输出； ④类似  中解码器的方法，

将  中的  层用于对 S 矩阵添加时空平滑、表面平滑等约束，使用漏斗形全连接网络

约束形状矩阵的低秩性。

相关工作

采用传统方法进行  问题研究，目前已有许多解决方案，可以从多帧的二维关键点中恢复必要

变形对象的三维视点及形状

［

!

］

。然而，由于非刚性物体在发生运动时会发生形变，导致  实

际上拥有较多约束，这也对正确分解三维视点和形状构成了极大挑战。因此，利用形状和摄像机运动

的先验知识降低  问题的难度成为研究的主流方法，比如假设在时间和空间域上使用低秩子空

间

［

"

］

，又比如将二维特征点拟合到一组预先设计的 #$ 基函数中

［

 

］

、时空域模型

［

，



］

、利用时

空间联合中添加稀疏子空间聚类的形式

［

，



］

。

近年来，一些学者鉴于神经网络在许多领域的优良表现，尝试利用神经网络进行非刚体三维重建的求

解。然而，在训练神经网络时，对大量图像进行三维姿态的标注是非常繁重且困难的一项工作。因此，

文献［&］提出利用合成图像对训练数据进行增强处理，但这些办法并不能很好地应用于现实场景。

于是，研究者开始使用 # 的姿态注释

［

'!

］

、动作标签

［

"

］

等方式，以提高算法性能，可是这些方法

也差强人意。因此，找到一种无监督的算法成为研究者们努力的方向。

由于稠密三维真实数据获得需要十分昂贵的仪器，以及大量的数据和复杂且困难的激光建模算法，很

长一段时间以来，基本上不可能有监督地训练出有效的三维重建神经网络。因此，无监督的三维稠密

运动重建成为目前可行性较高的方案。 等

［



］

在  年首次利用无监督的神经网络方法实现稠

密的三维重建，他们从潜在空间中约束了三维运动，无监督地训练神经网络，第一次实现了端到端的

稠密三维重建。但是他们的方法需要复杂的分布训练，且提供隐藏编码的周期性以完成运动信息提取，

且需要刚性三维先验，因此方法的限制条件较多，适用性不广。

基于  架构的 

传统的三维重建任务可以表示为：

()()

其中，测量矩阵 (*+ ，三维形状矩阵 *+ ，旋转矩阵 ),-.//

0/1*+。基于分解的三维重建任务就是根据输入的测量矩阵 (，求得三维形状矩阵  和

旋转矩阵 。

2　 各层介绍

在传统的  架构基础上，结合稠密  的特点，本文提出了一种新的可用于稠密

 的端到端的  架构。以下将对网络架构进行详细分析说明。

22　将测量矩阵 (( 作为  网络输入

考虑到三维重建任务中需要全局的形状基，而不是只关注相邻帧，本文提出的  架构直

接将包含二维点轨迹信息的测量矩阵 ( 作为  网络的输入，去除了位置嵌入的过程。

22　注意力模型设计

在设计  网络时，注意力层的运算方法是网络设计的重点。需要结合待解决问题的特点

进行分析和设计。本文注意力层模型架构如图  所示。

图 1注意力层架构

Fig. 1Attention layer architecture

下载34原图•54高精图•54低精图

不同于传统的注意力层，直接将输入的线性映射作为查询矩阵 6、键矩阵  和值矩阵 7。

从图  可以看到，本文的注意力层并没有直接使用输入矩阵 (，而是利用 7# 分解求得 ()89:9

中每帧的 89*+，将 89 的转置矩阵线性映射作为输入的查询矩阵 6。将 Gram 校正矩阵

;-*+ 作为键矩阵  ， ;- 通过文献［  ］中提到的零空间向量法进行求解。将

(*+ 的转置矩阵作为值矩阵 7。

使用 89 的转置矩阵 89 进行运算是因为对于三维非刚体重建任务而言，时间尺度（帧之间）的特征

更重要。而且如果直接对稠密的特征点  进行映射，会耗费大量的计算资源。

此外，将传统点积注意力中的 < 函数修改为  伪逆函数输出注意力。实际上，

点积注意力操作与求解旋转矩阵  的过程类似，而将 < 函数修改为  伪逆函

数可以直接使用伪逆法求得基本的三维结构。同时，如同传统的  算法，对 ;- 施加如下约束：

;-=)>?@ABC89;-;-8989C;-;-89CDEFAB89C

89C;-;-89CDEGHI;-=)8J;-;-8J8J;-;-8JF8

;-;-8J8J;-;-8J

22　多头注意力模型的设计

本文提出的多头注意力架构如图  所示。多头注意力层将输入的查询矩阵、键矩阵和值矩阵线性映射

成为多个注意力头进行并行计算，如同传统的 。在输出时将各头的输出进行联合线性

组合输出。最终输出 + 尺度的注意力矩阵，提取出测量矩阵时间尺度的信息。

剩余13页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3586
资源: 1万+

Transformer架构下的稠密NRSfM网络实现.docx

基于多特征融合及Transformer的人体跌倒动作检测算法.docx

基于Transformer的入侵检测方法研究.docx

基于Transformer和图卷积神经网络的隐喻识别.docx

3_Transformer架构的视觉骨架网络.ipynb

基于图注意力机制和Transformer的异常检测.docx

华硕Win8.1平板Transformer Book T100试玩.docx

ChatGPT和Transformer模型的异同与性能对比.docx

前端大厂最新面试题-transformer.docx

视觉Transformer研究的关键问题 现状及展望.docx

基于改进的Transformer编码器的中文命名实体识别.docx

transformer详解.docx

基于Transformer结构的遥感影像敏感目标自动隐藏方法.docx

NLP on Transformer面试题.docx

ChatGPT技术与Transformer模型的关联与联系.docx

Transformer的位置编码解释.docx

Transformer Modeling By Harvey Morehouse.docx

transformer_pytorch_inCV.rar.zip

Multi-Criteria Chinese Word Segmentationwith Transformer 译文.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

MATLAB深度学习入门实例（果树病虫害识别VGG19版）

最新资源

视觉Transformer研究的关键问题现状及展望.docx