系统开发北京网站建设,口碑营销的例子,ui设计师简历,南宁制作企业服装Multi-Frame Self-Supervised Depth with Transformers基于transformer的多帧自监督深度估计0 Abstract 多帧深度估计除了学习基于外观的特征外#xff0c;也通过特征匹配利用图像之间的几何关系来改善单帧估计。我们采用深度离散的核极抽样来选择匹配像素#xff0c;并通过一…Multi-Frame Self-Supervised Depth with Transformers
基于transformer的多帧自监督深度估计 0 Abstract 多帧深度估计除了学习基于外观的特征外也通过特征匹配利用图像之间的几何关系来改善单帧估计。我们采用深度离散的核极抽样来选择匹配像素并通过一系列的自我和交叉注意力来细化预测这构成了一种新的基于transformer的成本量。这种方式可以改善歧义和局部极小值的标准相似度。方法在KITTI和DDAD上进行测试效果良好。
1 Introduction 特征匹配是SFM的一个基本组成部分其被广泛的用于深度估计、自我运动估计、光流和场景流等等。这些方法依靠特征匹配建立起图像之间的跨帧的对应关系从而建立起一个视图到另一个视图的扭曲重投影损失从而构建了自监督约束方式。虽然从训练的角度来说自监督方式更具有挑战性但是自监督方法可以利用大量未标记的数据具有更广阔的使用范围。而目前的自监督方法已经超过了一些监督方法。 单帧深度估计和多帧深度估计虽然在训练的时候都采用多帧输入但是单帧自监督方法在测试的时候仅需要单帧输入而多帧自监督在训练的时候需要多帧输入这使得多帧方法在测试时多采用了时序信息和相邻帧之间的几何关系在指标上多帧方法也普遍高于单帧方法。但是多帧方法很依赖特征匹配来构建帧间的对应关系而缺乏纹理、重复、光度变化和动态对象会导致模糊和局部极小值。 本文提出了一种改进自监督特征匹配的新框架在目标和背景图像之间建立了一个成本量采用可微的深度离散化核极采样并提出了一种新的基于注意力机制来细化像素间的匹配概率所得到的多帧成本量直接通过高响应窗口滤波直接转化为深度估计值。本文的贡献如下
提出了一种新的基于transformer框架通过交叉和自我注意力结合深度离散化核极采样来改进多视图特征匹配。我们的特征匹配细化模块可以在数据集之间传输具有良好的鲁棒性。指标较好超过了部分监督单帧深度估计。这个现在已经到0.95了哦
2 Related work 相关工作主要从自监督深度估计、多帧深度估计和深度估计中的注意力机制三个方面来讲。自监督深度估计最早由momo提出采用视图合成方式建立了自监督深度估计的基本框架并添加了一个位姿网络来预测相机的自我运动自监督单目深度估计通过一些方法已经超过了一些监督算法。 单幅图像的深度估计本质上是一个不适定问题因为单幅2D图像可以对应无数3D图像单帧网络在一些对抗中会失败这里主要讲的是19年的一篇文章这篇文章多mono进行了评判目的在于探究深度估计网络是怎么进行深度信息获取的。方式是采用一些数据增强方式例如骑车位姿和尺度的缩放相机的角度和汽车的边缘和底部以此来看深度估计网络的效果结论是深度估计网络更看重图像中物体的垂直位置并以此来进行深度估计How do neural networks see depth in single images?很有意思的一篇论文但多帧网络通过在测试时使用多幅图像来突破这一限制。
3 Method 首先描述了单目深度估计的投影和重投影过程接着讲交叉注意力成本量的构建主要分为极线采样和交叉注意力匹配。第一个公式是采用空间离散化分配的一个深度信息第二个公式是从目标帧到相邻帧的一个投影过程。 随后采用交叉注意力机制来细化成本量下图也可以看到采用了交叉注意力后网络估计出的深度在预测值附近相对集中。 本文与其他的不同点在于其他多帧网络在计算成本量后会直接送入解码器进行深度解码但本文提出了一个高响应的深度解码方式通过一个自适应的窗口来将分配的深度转化为真实的深度。但是这样的深度缺乏上下文联系交叉注意力成本量是在极线上进行回归的所以采用了上下文调整层来细化深度值。本文采用了额外的单帧网络以用来补全成本量体积失败的地方这个单帧网络采用共同的姿态预测网络在评估的时候被丢弃。
4 Experiments KITTI结果。 这篇文章的工作量我个人认为还是比较大的实验也比较详细涉及的点也比较多从深度估计、立体匹配、极线采样、交叉注意力和自注意力等等还添加了高响应的自适应深度方法以及上下文调整层等等。好久没读论文了过起来还是比较吃力的。