锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

ICCV 2021 | 最新开源!多视角几何和注意力机制实现新视角合成

时间:2023-12-06 02:07:01 传感器1130

点击上方“3D视觉车间,选择星标

第一时间送达干货

作者丨Bo Yang@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/399867075

极市平台编辑

导读

本文提出了多视角几何和注意力机制的通用神经辐射场 GRF,GRF单个模型可以推断出新类别物体的高质量新视角合成图像。

论文链接:https://arxiv.org/abs/2010.04595

TensorFlow 代码:https://github.com/alextrevithick/GRF


1. Introduction

三维模型形状的恢复是三维感知和理解任务的关键问题之一。经典的几何方法如SFM和SLAM稀疏离散的点云只能重建,不能包含几何细节。近年来,大多数深度神经网络也学习了显式的表征形式,如点云、网格、体素等,但这些方法离散稀疏,限制了恢复三维形状的空间分辨率。此外,这些方法通常需要大量的三维形状作为监督,通常会导致训练模型过拟合,泛化率低。

2. Motivation

近期,以ECCV 2020 NeRF [1] 以神经网络隐式场为代表的方法在三维模型的几何细节和新视角合成方面取得了良好的效果。NeRF方法仍有两个限制:

第一,每个MLP网络只能表示一个单一的结构,不能泛化到新的几何形状;

第二,由于沿光线每个空间点的形状和外观仅由单个像素组成RGB进行优化,使该位置没有学习到更丰富的几何信息,导致最终渲染图像不够逼真。

针对上述问题,我们提出了多视角几何和注意力机制的通用神经辐射场 GRF (如图 1),GRF单个模型可以推断出高质量、新视角的合成图像。本文的主要贡献包括以下三点:

首先,我们提出了一个通用的神经辐射场,用于表示三维形状和外观,对新的几何形状有更强的通用性。

第二,我们集成了多视图几何和注意力机制,可以更好地学习每个光3D空间点的一般局部几何信息提高了新视角图像的合成质量。

第三,我们在大规模数据集中的训练结果表明,我们的方法可以显著改进baseline,并通过一系列消融实验验证了该方法的优点和合理性。

图 1:GRF 示意图

3. Method

3.1 Overview

GRF该方法首先提取每个射线空间点对应像素的通用特征,然后将这些特征重新投影到相应的3D空间点,利用注意机制整合多视角像素特征,获得每个3D点击唯一的特征值,然后通过MLP从这些特征中推断出相应的特征RGB值和体积密度(Volume Density),最后使用Volume Rendering方法,累积渲染同一光线上的多个查询点,获得最终像素值。其结构图如图2所示。其结构图如图2所示。共有四个模块。

图 2:GRF原理结构图

3.2 模块一:Extracting General Features for 2D Pixels

二维图像的每个像素都描述了空间中确定的三维点。为了学习每个光的局部几何性质,我们需要获得每个像素的一般特征。RGB该值对光照条件、环境噪声等因素非常敏感,导致鲁棒性差。我们设计了基于CNN的encoder-decoder结构用于提取鲁棒和通用像素特征。

如图3所示,我们设计的结构不是直接原始的RGB图像输入到CNN相反,在网络中RGB将值图像当前位置的视角方向(即沿相机光心到每个像素点的射线方向)堆叠后作为输入。这样做的目的是让学习的像素特征清楚地意识到它在3D空间中的相对位置。此外,我们还使用了它Skip Connection 来保留每个像素的高频局部特征,同时在CNN在模块的中间选择地集成了几个全连接层来学习整体特征。这种多层次特征的混合使最终结果更加普遍和有代表性。

图 3:基于CNN结构特征提取模块

3.3 模块二:Reprojecting 2D Features to 3D Space

将上一步提取的像素特征的像素特征和3D对应点,考虑到提取的像素特征是对从相机光心发射到三维物体表面的光的描述,我们自然认为这个特征可以沿着光重新投影。但由于我们没有每个像素对应的深度信息,因此无法确定该像素特征对应哪个特定的三维表面点。我们的做法是,沿着相机光心穿过像素射线的每个空间点都可以用相同的像素特征值来表示。

图 四、像素特征3D空间的重投影过程

如图4所示,该模块在空间中表示像素特征3D重点投影过程为3D 点p,重投影的过程如下所示P()遵循多视图几何原理 [2]获得的特征F表示不同图像中对应的像素特征。

3.4 模块三:Obtaining General Features for 3D Points

给定一个空间点p,现在可以从每个图像中获得相应的像素特征,但如何获得空间点p的最终特征值仍然是一个问题。因为每个3D输入图像的总数和顺序是可变的。因此,特征向量也是无序的,大小是任意的。其次,由于视觉屏蔽的问题,空间点的真实描述无法确定哪些特征。为了解决这个问题,我们采用了注意机制,如图5所示AttSets [3] 和Slot Attention [4]将多视角投影的特征向量聚合成点p唯一对应的特征值。每次查询3D点p,其最终特征显式保留2D图像的通用特征和3D空间中的位置信息。这使得3D点特性对其几何形状和外观有一定的普遍性和代表性。

图 5:将多个3D点像素特征向量聚合

3.5 模块四:Rendering 3D Features via NeRF

渲染模块仍然使用经典NeRF如图6所示,我们输入点p对应的特征值和光线方向,然后通过MLP预测出RGB体积密度。GRF新的二维图像可以通过输入渲染光直接合成,整个网络只需要一组2D图像可以训练,不需要3D监督数据。

图 6:使用NeRF结构预测每个点的颜色和密度

4. Experiments

在这一部分,我们针对GRF在同一类别的不同物体、不同类别的物体和不同的场景中进行泛化实验,并测试单个场景的渲染质量。最后,我们GRF在各种情况下,它具有良好的泛化性,可以合成更真实的新视图。

4.1. Generalization to Unseen Objects

首先,我们进行了评估GRF在同一类别的不同物体上测试新视角合成的结果。NeRF不要同时学习很多场景,所以不作为baseline对比。从表1可以看出,GRF在汽车类别中取得了与和SRN 性能相当,在两组中都实现了新的视图合成。值得注意的是,我们的GRF预测新物体只需要训练一次,SRN优化所有新对象需要重新训练latent code。结果表明, GRF学习到的局部像素特征使其在新物体上更具泛化性。新视角合成效果如图7所示,GRF更接近Ground Truth, SRN不再训练的汽车的真实形状无法恢复。

表 1:在ShapeNetV对比数据集2上的定量结果
图 7:比较固定结果

4.2. Generalization to Unseen Categories

我们进一步评估了GRF对不同类型模型的结果。结果如表2所示。值得注意的是,SRN在新的类别中,该方法首先进行了再训练过程结果表明,我们GRF在新类别上可以保持相似的性能,显示出较强的泛化能力。

表 2:GRF和SRN定量对比分析在新类别下

4.3. Generalization to Unseen Scenes

我们在一个更复杂的数据集中Synthetic-NeRF 进一步评估GRF泛化性能。我们在随机选择的四个场景中训练一个模型,分两组进行实验。第一组评估学到的特征是否能真正泛化到新场景中,第二组评估GRF如何将初步学习的特征转移到新场景中。

我们可以通过表3和图8看到我们GRF复杂几何的新场景也有很好的效果,证明了GRF能有效地学习点的局部特征。此外,从Group2 结果表明,我们可以在迭代次数少的同时学习高质量的新场景表征,更多结果请查看论文附录。

表 三、定量结果对比
图 8:定性结果对比

4.4. Pushing the Boundaries of Single Scenes

GRF除了对没有见过的物体和场景的进行泛化性测试外,其学习到的像素特征也有望显著提高单场景渲染图像的质量。我们使用LLFF[6]和SRN作为baseline,对每个场景单独训练一个模型,测试其单场景的渲染效果。

表 4:单个真实场景学习的定量结果对比
图 9:单个复杂场景下的定性结果对比
表 5:Ablation study结果对比

5. 结语

最后总结一下,我们提出的GRF方法将三维几何建模为通用的神经辐射场。我们证明它可以从一组二维观测中学习到通用和鲁棒的三维点特征。利用多视图几何原理将二维像素特征映射到三维空间,并利用注意机制隐式的解决视觉遮挡问题,最终我们的GRF可以合成更加真实的新视图。当然GRF可以进一步提高:1)可以设计更高级的CNN模块,学习更好的像素特征。2)深度信息可以集成到网络中,以明确地解决视觉遮挡。

欢迎大家关注我们更多的新工作,https://yang7879.github.io/

(多谢魏小康博士翻译整理!)

参考文献

[1] Ben Mildenhall,Pratul P. Srinivasan,Matthew Tancik,Jonathan T Barron,Ravi Ramamoorthi,and Ren Ng. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. _European Conference on Computer Vision,_pages 405–421,2020.

[2] Richard Hartley and Andrew Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press,2004.

[3] Bo Yang,Sen Wang,Andrew Markham,and Niki Trigoni. Robust Attentional Aggregation of Deep Feature Sets for Multi-view 3D Reconstruction. International Journal of Computer Vision,128:53–73,2020.

[4] Francesco Locatello,Dirk Weissenborn,Thomas Un- 949 terthiner,Aravindh Mahendran,Georg Heigold,Jakob 950 Uszkoreit,Alexey Dosovitskiy,and Thomas Kipf. Object-Centric Learning with Slot Attention. _Advances in Neural Information Processing Systems,_2020.

[5] Vincent Sitzmann,Michael Zollho ̈fer,and Gordon Wet- zstein. Scene Representation Networks: Continuous 3D- Structure-Aware Neural Scene Representations. Advances in Neural Information Processing Systems,pages 1119-1130,2019.

[6] Ben Mildenhall,Pratul Srinivasan,Rodrigo Ortiz-Cayon,Nima Khademi Kalantari,Ravi Ramamoorthi,Ren Ng,and Abhishek Kar. Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. SIGGRAPH,2019.

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章