【论文简述】DSC-MVSNet: attention aware cost volume regularization based ondepthwise separable(CIS 2023)-程序员宅基地

技术标签: 3D重建  MVS  通道注意力  深度可分离卷积  

一、论文简述

1. 第一作者:Song Zhang

2. 发表年份:2023

3. 发表期刊:Complex & Intelligent Systems

4. 关键词:MVS、三维重建、深度可分离卷积、通道注意力

5. 探索动机:基于深度学习的MVS方法很难平衡效率和有效性。

6. 工作目标:如何在保持效果的情况下显著减少计算量是研究的主要问题。

7. 核心思想:We propose the DSCMVSNet, a novel coarse-to-fine and end-to-end framework for more efficient and more accurate depth estimation in MVS.

  1. We propose a 3D UNet-shape network and firstly use the depthwise separable convolution for 3D cost volume regularization, which can effectively improve the model efficiency with performance maintained.
  2. We propose a 3D-Attention module to enhance the ability in cost volume regularization to fully aggregate the valuable information of cost volume and alleviate the problem of feature mismatching.
  3. We proposed an effective and efficient feature transfer module to upsample the LR depth map to obtain the HR depth map to achieve higher quality reconstruction.

8. 实验结果:

The proposed method outperforms the state-of-the-art method in dynamic areas with a significant error reduction of 21.3% while retaining its superiority in overall performance on KITTI. It also achieves the best generalization ability on the DDAD dataset in dynamic areas than the competing methods.

9.论文下载:

https://link.springer.com/content/pdf/10.1007/s40747-023-01106-3.pdf?pdf=button

https://github.com/zs670980918/DSC-MVSNet

二、实现过程

1. 总述

  1. 使用信息特征提取网络来提取相应的特征;
  2. 使用DSC-Attention 3D UNet来正则化粗糙代价体C×D×1/8H×1/8W;
  3. 使用特征转移模块来将LR深度图Ds∈1×1/8H×1/8W上采样到HR深度图Dd∈1×1/4H×1/4W;
  4. 利用输入图像和HR深度图,通过高斯牛顿网络层,得到改进后的深度图Dr∈1×1/4H×1/4W;
  5. 最后将改进后的深度图进行融合,得到点云。

2. 三维深度可分离卷积(3D-DSC)

将3D CNN分为3D depthwise卷积(depthwise是深度维度,可以对深度维度的代价体信息进行代价聚合)和3D pointwise卷积(pointwise是空间维度,在空间维度对代价体信息进行代价聚合)。 

3D depthwise convolution。在每个通道的代价体上独立进行3D深度卷积,得到与通道无关的中间特征图,定义如式:

式中W1表示三维深度卷积的权值,V∈C×D×H×W表示代价体,i, j, u表示位置索引,K, L, M表示卷积的核大小。

3D pointwise convolution。3D逐点卷积作用于这些与通道无关的特征图,以聚合通道相关的信息,如定义:

 式中,W2表示三维点向卷积的权值,V∈C×D×H×W表示中间特征图,N表示卷积的核大小。

这两个卷积依次执行,形成一个完整的卷积。其数学表达式定义为式:

本文将3D-DSC正则化方案与其他主流正则化方案进行了理论比较,证明了该方案的有效性。用青色表示体素的感受野。水平是深度尺寸,垂直是通道尺寸。H和W分别表示高度和宽度。在这个图中,设H和W为一维。

 (a)空间正则化(spatial Regularization, SR),它过滤了不同深度的代价体。然而,由于感受野较小,SR的正则化结果受到很大影响;(b) 3D CNN正则化(3D-CNN),利用3D CNN获得更大的感受野进行代价体正则化。但它带来了更多的计算成本;(c)递归正则化是一种基于RNN的方法,提出了顺序处理,将代价体划分为与深度无关的代价图,以降低计算成本;(d)3D-DSC正则化是一种基于DSC的方法,将代价体分割成中间特征图,然后应用逐点卷积来建立这些中间特征图之间的关系,以保持模型的性能。与SR相比,我们的方法可以获得更大的接受野,而3D CNN正则化可以获得更好的性能,但也会带来更高的计算成本。然后比较了3D-DSC和3DCNN的效率。

3. 3D注意力模块(3DA)

3D-DSC虽然可以有效地聚合代价体信息,但仍然存在影响代价体质量的特征不匹配问题。当不同关键点的特征被错误匹配时,就会出现特征不匹配问题,这将导致代价体在不同深度处有相似置信度,最终导致深度估计不准确。具体而言,如图3下图所示,一个参考特征在不同深度匹配两个相似的源特征(佛像的两只手),不同深度的置信度在代价体上相似。这些相似的置信度将影响深度图的质量。并利用3DA来缓解这一问题。红色体素表示相似置信度;淡红色表示置信度减弱。

由于注意力机制可以通过计算不同的权重来突出重要信息,因此使用注意力机制来解决特征不匹配问题。3D注意力由两个模块组成,通过利用整个代价体的信息计算注意力权重来增强或削弱不同深度的相似的置信度,从而缓解了这一问题。

通道注意力块。通道注意力块对通道信息执行注意力。它由一个多层感知器(MLP)构造,作用于代价体V∈C×D×H×W的通道,以获得通道注意力增强权值Wˆ。将通道权值W与代价体V相乘,得到通道改进的代价体V‘∈C×D×H×W。通道注意力块定义为:

其中Max Pool为最大池化,AvgPool为平均池化。W∈C为通道注意力增强权值,两部分均共享MLP的权值。

空间深度注意力块。与普通注意力使用全感知(不区分空间和深度)不同,空间深度注意力块根据代价体的构成从两个不同维度感知代价信息,如:空间和深度。首先,使用核大小为1×7×7(相同深度的不同位置)的面向空间的各向异性卷积沿空间方向过滤代价体,以在保持相同深度的有用匹配信息的同时降低噪声。它为下一次面向深度的卷积提供了更准确的空间信息。然后用核大小为7×1×1(同一位置不同深度)的面向深度的各向异性卷积作用于深度维度,有效增强或减弱同一空间位置不同深度的匹配信息。最后,使用核大小为7×7×7的各向同性卷积,作用于多维(空间,深度),以充分聚合上述过程的信息。空间深度注意块的公式定义为:

式中σ为激活函数;W ̄∈1×D×H×W为空间深度权重;f1×7×7是空间向卷积,f7×1×1是深度向卷积,f7×7×7是整体卷积。 

将这两个模块级联形成一个3D注意力模块,公式定义如下:

正则化后,在深度方向上使用softmax操作对[0,1]之间的所有值进行回归,形成深度估计的概率体P。最后,将不同深度假设平面值与概率体P相乘,得到LR深度图D~s。公式为:

4. 特征传输模块

上采样获得的高分辨率深度图直接影响点云结果的质量。为了获得高分辨率和精确的深度图,提出了一种用于低分辨率(LR)深度图上采样的特征传输模块(FTM)。

FTM的输入是一个三通道的参考图像I0∈3×H×W和单通道LR深度图Ds∈1×1/8H×1/8W。为了统一输入的尺度,首先使用双三次插值算法对LR深度图Ds进行上采样,得到更大尺度的深度图D~s∈1×1/4H×1/4W。将参考图像下采样为16通道图像I0∈16×1/4H×1/4W。在统一之后,提出了一个共同的偏移量和权重提取主干来获得参考图像和深度图的偏移量。该主干包含一个七层卷积特征提取网络、一个偏移卷积、一个权重卷积和一个sigmoid层。该主干定义为:

式中,fFE表示提取网络,foc表示偏移卷积,fwc表示权卷积,sigmoid表示sigmoid层。 

然后使用OWC Block来计算权重∈k2/16×1/4H×1/4W和偏移∈k2/8×1/4H×1/4W,用于引导深度图上采样,其中k是一个超参数,设置k=12。具体来说,将相应的偏移量和权重相乘,然后通过PixelShuffle传递结果来获得目标偏移量和权重。然后利用偏移量引导特征采样,并将采样的特征与权值相乘得到最终结果。最后,通过残差相加块得到HR深度图。将上述过程的方程定义为:

其中fps表示PyTorch的的PixelShuffle操作,fgs表示grid_sample函数,Dres表示深度残差。

5. 信息特征提取网络

之前的方法很多仅使用顺序卷积操作从输入图像{Ii}i提取特征映射,这些图像只包含高级语义信息。低层次空间信息的丢失会影响重建结果的质量。因此,提出了一种利用跳跃连接传播低层次空间信息来聚合多层次特征信息的信息特征提取网络。这个网络有三个组件(Encoder, Decoder, Adjuster),架构如下表所示。每个卷积层代表一个卷积块、批归一化(BN)和ReLU。“sp”表示跳跃连接。

6. 代价体构建

定义为:

Vi是所有特征体的平均体。

7. 深度图改进

前一步得到的深度图质量不足,需要进一步改进。而在Fast-MVSNet中,高斯牛顿网络层是一种有效且高效的深度图改进模块。因此,使用高斯网络层对深度图改进图D∈1×1/4H×1/4W,用于MVS重建。

8. 训练损失

计算预测深度图与真实深度图之间的平均绝对值误差作为训练损失,如:

式中,D~d为HR深度图,D~r为改进后的深度图,D~为真实深度图,pvalid为真实深度图的有效点集,λ用于平衡loss1(p)和loss2(p)。在训练过程中,通常将λ设置为1.0。

9. 实验

9.1. 实现细节

设置RMSProp优化器,初始学习率设置为0.0008,每个epoch的衰减权值设为0.002。批大小设置为16,并在6个NVIDIA GTX 2080ti GPU设备上进行训练。

9.2. 与先进技术的比较

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_43307074/article/details/132101021

智能推荐

jquery 获取子 div_jq 子级别div-程序员宅基地

文章浏览阅读908次。获取 dom 对象$("#divId").children("div").get(0);$("#divId").children("div")[0];获取 jquery 对象$("#divId").children("div").eq(0);$($("#divId").children("div").get(0));【Java面试题与答案】整理推荐基础..._jq 子级别div

基于Springboot + vue实现的交通管理在线服务系统-程序员宅基地

文章浏览阅读271次,点赞4次,收藏4次。管理员管理:负责添加、删除、修改管理员账号,并设置相应的权限,确保管理员团队的专业性和高效性。新闻信息管理:发布、编辑和删除交通新闻、政策更新、路况信息等,保持信息的实时性和有效性。驾驶证业务管理:在线提交驾驶证申请、查询、更新、补办等业务,并实时查看办理进度。新闻信息查看:浏览系统发布的交通新闻、政策更新、路况信息等,了解最新的交通动态。机动车业务管理:在线提交车辆注册、年检、转移、报废等业务申请,并获取办理结果。用户管理:管理用户账号,包括用户注册、登录、权限设置等,确保系统的安全性。

打印系统开发(42)——静默打印_静默打印是什么意思-程序员宅基地

文章浏览阅读4.4k次。1.问题描述希望每次打印时,都是用固定的打印机打印并且不希望弹出对话框进行设置,此时便可以设置静默打印。1.1什么是静默打印静默打印即点击打印时不弹出选项窗口和打印机设置窗口直接进行打印。1.2支持静默打印的打印方式零客户端打印、本地打印、服务器端打印支持静默打印。2.静默打印设置方法2.1 零客户端打印设置方法注:只支持 IE点击模板-打印..._静默打印是什么意思

STM32+74HC595:带领你10分钟用对74HC595_74hc595连接stm32-程序员宅基地

文章浏览阅读2.4w次,点赞14次,收藏68次。使用的是STM32CBT8,小模块用起来性价比超级高,资源丰富,移植u/COS及HTTP、MQTT协议等等用起来简直欲罢不能,摇摇欲仙!BUT:IO口资源太少了,我想让你驱动100个LED,你缺告诉我,我的要求太多,你满足不了......还好,找到了74HC595,但是网上很多资源讲的我看了半天才总结、提炼并另辟蹊径出来精髓===============================_74hc595连接stm32

莱昂哈德·欧拉生平及其成就简介_欧拉的物理成就-程序员宅基地

文章浏览阅读4.1k次,点赞2次,收藏8次。莱昂哈德·欧拉(Leonhard Euler ,1707年4月15日~1783年9月18日),瑞士数学家、自然科学家。1707年4月15日出生于瑞士的巴塞尔,1783年9月18日于俄国圣彼得堡去世。欧拉出生于牧师家庭,自幼受父亲的影响。13岁时入读巴塞尔大学,15岁大学毕业,16岁获得硕士学位。欧拉是18世纪数学界最杰出的人物之一,他不但为数学界作出贡献,更把整个数学推至物理的领域。他是数学史上最多产的数学家,平均每年写出八百多页的论文,还写了大量的力学、分析学、几何学、变分法等的课本,《无穷小分析引论》、_欧拉的物理成就

Error: PL/SQL: ORA-00980: 同义词转换不再有效_sql数据库中同义词转换不再有效-程序员宅基地

文章浏览阅读1.5w次。今天在写存储过程的时候,碰到一个问题,在执行存储过程的时候总是报错--同义词转换不再有效,发现一个查询语句中的一个表原来使用的是一个同义词,就试着把这个同义词单独拿出来进行查询操作,发现并没有问题。最后,经过一番努力,发现该同义词并不是直接指向一个实体表,而是指向另一个同义词。所以,将改同义词的指向改为直接指向原实体表的指向,问题得到解决。即同义词指向的 object ow_sql数据库中同义词转换不再有效

随便推点

html页面点击按钮上传文件,点击按钮实现文件上传及控制文件上传类型-程序员宅基地

文章浏览阅读4.3k次。1.原生js实现文件上传html部分:上传文件js部分:upload(event) { //代替执行上传功能let it = event.target;$(it).next().click();},UploadFile() { //上传文件let msg = new FormData();msg.append('file', $('#uploadBillsInp')[0].files[0..._formdata.append('enctype', 'multipart/form-data');

Android后台源码,Android8.0的后台Service优化源码解析-程序员宅基地

文章浏览阅读245次。今天在用户的错误列表上看到这么个bugjava.lang.RuntimeException: Unable to start receiver com.anysoft.tyyd.appwidget.PlayAppWidgetProvider:java.lang.IllegalStateException: Not allowed to start service Intent { cmp=com...._to start receiver com.mediatek.engineermode.emstartreceiver: java.lang.secur

深刻对比一下阿里云服务器和腾讯云服务器的优劣和区别_腾讯云与阿里云的优劣-程序员宅基地

文章浏览阅读2.5w次,点赞10次,收藏19次。我来简单对比阿里云服务器和腾讯云服务器的优劣和区别腾讯云相比阿里云优势不明显。阿里云比腾讯云开放的时间更早,辅助系统更完善些,功能更多可用性更强。但腾讯云不是单纯卖云服务的,凡是要接入腾讯的生态(比如微信小程序等)必须得用腾讯云服务器,腾讯云迅速发展壮大。腾讯云也在慢慢完善,大多数应用场景也都能满足,但就是对很多新技术的支持总是比阿里云慢一些,高级的配置定制也少一些。服务器结构不是很复杂的话用......_腾讯云与阿里云的优劣

应用C预处理命令_c 添加预处理命令-程序员宅基地

文章浏览阅读1.6k次。********************************LoongEmbedded******************************** 作者:LoongEmbedded(kandi)时间:2011.10.17类别:C基础************_c 添加预处理命令

Acrobat 版本校验异常,请检查网络连接是否正常:NotAllowedError;安全性设置禁止访问本属性或方法。_版本校验异常,请检查您的电脑网络连接是否正常-程序员宅基地

文章浏览阅读1.3w次。一、上传企业所得税纳税申报表时,Acrobat提示版本校验异常,请检查您的电脑网络连接是否正常:NotAllowedError;安全性设置禁止访问本属性或方法。二、解决方法打开Acrobat DC 阅读器的然后 在菜单栏 --找到编辑--再选择首选项,添加该文件(如图)或者添加文件夹路径(注意:添加文件夹下面的路径将全部都会有权限,如果不是非必要,可以直接添加文件。)完_版本校验异常,请检查您的电脑网络连接是否正常

贪心算法——C++实现中级案例_c++贪心算法代码-程序员宅基地

文章浏览阅读95次。在贪心算法中,我们每次都选择当前状态下最优决策,然后更新状态,直到达到最终状态。本文将介绍几个经典的贪心算法案例,并给出C++代码实现。有n个任务需要调度,每个任务需要占用一个时间单位,并且有一个冷却期k。贪心算法本身也是一个很好的思维训练工具,可以帮助我们更好地理解问题本质和设计高效的算法。给定一个按升序排列的整数数组,将其划分成多个长度至少为3的连续子序列,每个子序列只包含连续的整数。有m个孩子和n个糖果,每个孩子有对应的贪婪值g_i和每个糖果有对应的大小s_i。贪心算法——C++实现中级案例。_c++贪心算法代码

推荐文章

热门文章

相关标签