锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

浅谈单图像三维重建算法

时间:2023-02-15 17:00:00 h1141接近传感器ni4

点击上方“3D视觉车间,选择星标

第一时间送达干货

fac230085b7cdd673332e23a447a3774.png

作者丨lcl

来源丨我喜欢计算机视觉

本文简要介绍了单图像三维重建相关论文。写这篇文章是对以前的总结。因为之前没有做过三维视觉,也没有钻研过生成对抗网络,中间实在是吃了不少苦,基本是边补基础知识边看论文,现在基本感觉看过一遍了,简单的把这些论文都拿出来说一说,算作有个收尾。假如说得不好,哪里理解错了,也请在评论区批评指教。

介绍单图像三维重建算法

在开始讨论之前,让我们谈谈为什么要进行单图像三维重建。原因实际上是直观的。总之,有两个词:需要。我们非常需要这样的应用程序。如果我们能做到这一点,它在学术和产品上都有很大的价值。

例如,像英伟达这样的国外(NVIDIA)、Facebook,国内阿里巴巴达摩研究所、快手虚拟人、虚拟场景等的应用。然而,3D重建并不容易,因为很难获得3D数据的真实值,或者收集起来非常昂贵。

因此,这带来了一个问题,如何以更低的成本完成三维重建。其中一个想法是,我们是否可以使用二维数据进行弱监督学习,曲线拯救国家来实现这项任务。这种方法被证明是有效的,所以在接下来的讨论中,我们将介绍一些单图像进行三维重建的方法。

如何实现单图像三维重建算法?

总的来说,过去两年的三维重建算法大多是基于深度学习的。在深度学习中,进一步分为三条主要路径,即

1)首先建模单个图片中的目标对象,直接获得其三维形状(template), 然后使用另一个模型来着色和处理光线。整个过程不是一个端到端的过程(这并不意味着单个模型不能统一,但没有论文),需要单独训练。

2)直接使用给定的先验体(prior template)学习体态,同时采样(UV sampling)三维体重建可以通过学习色彩特征来实现。

实现的主要方法是使用可导渲染器(也称为神经渲染器,英语是neural rendering)渲染然后再处理,生成某种三维形式的二维投影,得到投影再生成分割图,关键坐标,RGB像素等,然后优化分割和染色分支。这里提到的先验形体一般是指高对称的三维物体,如球体。

3)使用神经辐射场(NERF)除了三维结构学习的体素渲染外,还可以直接学习物体的形状和颜色。三维重建是当今学术界的主流,去年的许多相关论文基本上都是以此为技术核心发表的。目前,相对成型的探索结果包括虚拟人类形象和动物形象。

与其他算法相比,基于NERF该算法通常能产生更高的像素质量、更高的分辨率和更高的清晰度。然而,该算法也有其自身的问题,即不能生成基于特定输入的图像(因为该算法基于生成对抗网络),因此需要进一步改进产品化。一种可能的方法是做3D GAN inversion,也就是编辑图像。

单图像三维重建具体算法

让我们来看看这三种方案对应的论文,他们提出了解决具体问题的方法。

路径1:形状建模 色彩渲染

本方案分阶段采用,希望将三维重建分为两个子任务,即身体建模 色彩渲染。每个子任务引入一个子模型进行建模,同时使用两个子模型sota算法使形状和颜色达到极致。

这样不仅可以控制难度,还可以对每个模块进行精调,做出适当的选择。例如,如果你想在身体上做得很好,你可以降低对颜色的要求,降低相应模型的复杂性,反之亦然。

让我们先来看看WLDO[1]。在这篇论文中,作者研究了如何重建动物(主要是狗)的形状,不使用3d在数据真实值的情况下重建动物形体。模型重建过程是基于模型重建过程SMAL的3d实现先验、二维的关键点和分割图。

具体来说,作者用了一个encoder学习特征后,利用学习到的特征来拟合身体、姿势和相机参数,三者的结合可以实现整体身体的学习。在具体学习过程中,作者使用给定的先验体态与数据集的实际形态不太匹配。EM算法。E阶段估计预期的身体参数并冻结其他身体参数的更新;M阶段更新其他身体参数。最后通过迭代更新来实现整个形体的学习。

完成身体学习后,另一个需要解决的问题是如何着色。让我们在这里介绍一下Texformer[2]是怎么做Texformer它是为了进行人体建模利用输入图像的全局信息进行更精细的学习,同时尝试整合输入图像和颜色信息进行完整的染色。模型使用了SMPL预测姿势,同时使用Vision transformer学习全局信息。

具体来说,使用预计算颜色图作为query,图中每个像素对应三维空间下的顶点;使用输入图像作为value;使用二维组件分割图(2)D part segmentation map)作为映射图像UV空间载体。作者还使用混合蒙版合并texture flow与RGB颜色产生更好的颜色预测结果。我们在这里附上Texformer结构图供您参考。

Texformer 结构图摘录自论文原文

有许多类似方向的论文。例如,基于基础的使用SMPL人体模型参数建模,或特别切割人脸模型进行面部精细建模等。这里我们只举两个例子(作者懒惰地看到这些),然后总结这种方法的优缺点。

优势

  • 在训练颜色信息之前,先训练姿势。分开双阶段后,任务分摊到每个阶段,降低训练难度

  • 理论上,每个子模型都能学到更好的效果,整体效果可以保证

缺点

  • 需要更多的输入,包括输入图像、蒙版、关键点或part segmentation map,缺一类就不能训练;数据要求高。

  • 输出体态的估计值只能针对每一类,所以输出体态会非常接近,没有独特性

  • 多阶段导致训练和测试时间同步延长

路径2:使用神经渲染器

在神经渲染器出现之前,我们学习三维模型的基本方法是使用准备好的三维真实值,如给定玩具模型和三维坐标信息,我们直接回到基于三维参数的三维建模。

神经渲染器的出现消除了这个麻烦,因为有一种方法可以直接使用它来获得二维投影,这样你就可以学习三维模型来学习三维模型特性。与使用三维真实值相比,它绝对是一种非常有价值和商业化的方式。

使用神经渲染器可以实现端到端学习,学习目标是姿势、形状、相机拍摄参数和颜色信息。神经渲染器可以通过优化像素采样过程来指导。neural-render[10], soft-render[13]与Dib-R[12]等。

使用可导渲染器构建2D->3D的渲染结果,并使用投影投射回2D,渲染结果与原始图像的差异可以计算,因此可以快速估计和学习关键的重建参数。

以下是一些例子。

首先先介绍一下CMR[3]。CMR本文首次提出通过学习类模板解决三维重建问题,但模板需要运动来推断结构(SFM)计算初始模板,使用蒙版和关键点进行弱监督学习;

同时,使用球坐标转换进行映射UV sampling结果,学习并渲染着色。具体框架图见下图。CMR这是一篇非常经典的论文,我们后面提到UMR[4]、SMR[5]以及我们没有提到的u-cmr都是以此为基础进一步完善的。尤其是染色解决方案,基本上后面的论文都是模仿这个方案。

CMR 结构图摘录自论文原文

然后我们来看看UMR[4]。试着使用这篇论文。part segmentation map用于简化三维重建,而不是蒙版和关键点。作者认为,物体可以分为多个子区域,每个区域相互连接,区域和区域之间的颜色信息是连贯的。

因此2D、3D这种关系应该能够维持相互转换。借此思路,UMR该算法不需要构建类别模板,因此类别没有限制。同时UMR借助part-segmentation map进一步明晰了物体边界,这对于更加细节的学习物体的色彩有着十分重要的作用。我们之前提到的texformer,选择了part-segmentation map,部分原因来源于此。

UMR 结构图摘录自论文原文

让我们再SMR[5]。SMR建模应通过插值三维重建过程中的关键属性来实现。由于物体重建后,身体形状、纹理和身体关键部位对应的关键点位置应尽可能与原图一致,作者提出(c)、(d)重建后物体的一致性由两个限制。

另外,保持2D->3D->2D双向投影保证2D输入与预一致,并使用GAN来对相机拍摄角度、纹理信息、物体三维等信息进行插值,生成新的数据,补充训练集,以获得较好的效果。

SMR 结构图,摘录自论文原文

这里我们总结一下路线二的优点和劣势。

优势

  • 直接进行单阶段学习,框架更加简洁清晰

  • 所需的数据量逐步减少,最优情况下只使用蒙版即可生成期望结果

缺点

  • 数据假设训练物体是对称物体,训练需要初始化模板(球体),对于无模板、非刚体、非对称物体,学习难度显著增强

  • 由于是自监督学习,没有明确的真值定义,容易收敛到次优状态,或无法收敛

  • 受限于物体的体积、复杂程度。对于复杂物体效果不佳、对于学习物体的细节把握不佳。

路径三:使用神经辐射场(NERF)

神经辐射场[11]也是最近兴起的渲染器,和神经渲染器的功能类似,但是相比较而言,有其自身更独特的优点。神经辐射场的工作原理是,使用三维空间信息以及二维姿态信息,基于视图的辐射场以及体积密度,学习三维空间坐标与二维视角并投射到RGB颜色值上。

具体实现方式是使用固定的条件编码加上多层感知机(MLP)把输入翻译成像素值以及体素密度。之后进行体态重建将二维输入直接映射到三维。在神经辐射场之前,三维重建的做法是,使用基于voxel-grid的方法表示三维物体,或三维物体对应的特征;

前者极大地消耗了内存,因而只能用于低精准度的三维物体重建;后者需要额外的解码器去解码特征为RGB像素,使得多维度的一致性不够好。在使用神经辐射场之后,相比于基于网格的方法,这种方法不会空间离散、不限制拓扑形态,对于物体的学习有更好的效果。最后还是要提一下,NERF实现很多都是基于GAN的。其中的原因之一是,GAN对于训练数据不足有着很大的补充作用。

这里我们还是看一下相关论文是怎么使用NERF的。首先我们看一下Graf[6]。Graf基于神经辐射场,引入生成对抗网络,使用unpose图像进行训练。目的是生成未知视域下的三维重建结果。

其中生成器主要负责基于图像二维坐标进行采样,每次取得一个patch(K*K个点),然后从这些点里面使用分层采样的方式再采样出N个点进行精细化学习。生成器额外引入了Z_shape和Z_appearance两种隐层编码,可以直接学习体态和表观特征,同时将两种特征解耦,做到分别预测。判别器主要负责比较采样得到的patch与预测生成的patch。训练过程中从感知域比较大的patch开始,然后逐步缩小。

Pi-gan[7]基于Graf做了改进。它使用基于周期激发函数的正弦表示网络来加强神经辐射场中的位置编码效果,以生成更宽视角下的重建结果。相比较于graf,使用siren替代了位置编码,使用基于style-gan的映射网络使得形态和表观特征只依赖于给定输入。同时使用阶段训练以逐步收敛模型。

ShadeGAN[8]在pi-gan的基础上考虑了光照对于三维重建的影响,目的是去进一步解决三维重构场景下形态和颜色相互影响导致重建效果不佳的问题。作者认为,一个好的三维重建模型,在不同的光照条件下去渲染,形态应该相差不大。

同时,作者提出了表面追踪的方法来提升体素渲染的速度。相比于pi-gan的唯一不同是,作者引入了基于光照的限制,同时输出不再直接输出颜色,而是输出经过映射前的输入,目的是希望引入光照来进行后处理,具体处理方法为Lambertian shading。

ShadeGAN 结构图,摘录自论文原文

CIPS-3D[9]基于pi-gan进一步改进。作者发现现有方法(比如pi-gan)通过编辑浅层向量来隐性控制角度,然而并不能实现基于高分辨率下任意渲染角度的重建;同时在训练不完全的情况下会出现镜像对称的次优解。因此,作者提出调制SIREN模块来去处理生成的不同图像的尺度对于重建的影响。

同时,作者发现使用方向作为输入会导致不同维度成像不一致,因而采用输入点的方式来替代。另外,作者发现了生成结果有概率出现镜像对称问题。为了处理这个问题,使用隐式神经表达网络来把隐式特征化为对应的RGB像素,同时追加了一个附加判别器,以处理镜像对称问题。实验证明这种处理方式起到了很好的效果。

CIPS-3D 结构图,摘录自论文原文

聊完了相关例子之后,我们最后再来比较一下NERF自己的优点和劣势。

优势

  • 用gan去解决数据稀缺的问题,同时sota版本下只需要单一图像输入,便可以进行多角度重现。相比较上述两种方式,整体方案成本较低。

  • 神经辐射场本身使用隐性学习方式学习三维特征,相比较于基于三维模板的方式,无对称性要求,使用范围可拓展至非刚体类目,泛化能力更强。

  • 具有可解释性,生成的浅层特征经过加工后可以用来可视化学到的三维重建模板。

缺点

  • 只能拟合单轴下的单图像重建。

  • 无法基于给定图像重建。

 总结

这篇文章为大家重点介绍了一下单图像三维重建的一些最近顶会,并且分成了三组主流路径。大家可以对比一下看看,如果有哪里说的不清楚或者欠妥,欢迎在评论区讨论。感谢各位看官花时间阅读本文。

PS: 本文引用的所有论文都是已开源代码的,大家搜索论文标题就可以找到对应代

码。

参考文献:

[1] Biggs, B., Boyne, O., Charles, J., Fitzgibbon, A., and Cipolla, R., “Who Left the Dogs Out? 3D Animal Reconstruction with Expectation Maximization in the Loop”, arXiv e-prints, 2020.

[2] Xu, X. and Change Loy, C., “3D Human Texture Estimation from a Single Image with Transformers”, arXiv e-prints, 2021.

[3] Kanazawa, A., Tulsiani, S., Efros, A. A., and Malik, J., “Learning Category-Specific Mesh Reconstruction from Image Collections”, arXiv e-prints, 2018.

[4] Li, X., “Self-supervised Single-view 3D Reconstruction via Semantic Consistency”, arXiv e-prints, 2020.

[5] T. Hu, L. Wang, X. Xu, S. Liu and J. Jia, "Self-Supervised 3D Mesh Reconstruction from Single Images," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 5998-6007, doi: 10.1109/CVPR46437.2021.00594.

[6] Schwarz, K., Liao, Y., Niemeyer, M., and Geiger, A., “GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis”, arXiv e-prints, 2020.

[7] Chan, E. R., Monteiro, M., Kellnhofer, P., Wu, J., and Wetzstein, G., “pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis”,arXiv e-prints, 2020.

[8] Pan, X., Xu, X., Change Loy, C., Theobalt, C., and Dai, B., “A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware Image Synthesis”, arXiv e-prints, 2021.

[9] Zhou, P., Xie, L., Ni, B., and Tian, Q., “CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Independent Pixel Synthesis”, arXiv e-prints, 2021.

[10] Kato, H., Ushiku, Y., and Harada, T., “Neural 3D Mesh Renderer”, arXiv e-prints, 2017.

[11] Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., and Ng, R., “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arXiv e-prints, 2020.

[12] Chen, W., “Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer”, arXiv e-prints, 2019.

[13] Liu, S., Chen, W., Li, T., and Li, H., “Soft Rasterizer: Differentiable Rendering for Unsupervised Single-View Mesh Reconstruction”,arXiv e-prints, 2019.

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章