锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

​使用端到端立体匹配网络进行单次 3D 形状测量,用于散斑投影轮廓测量

时间:2022-12-14 06:00:00 3255通用型单轴加速度传感器a80150激光3d轮廓传感器sensor传感器dl100

点击上方“3D视觉车间,选择星标

第一时间送达干货

ada708d565fb93dd31d053382f92bfab.png

标题:Single-shot 3D shape measurement using an end-to-end stereo matching network for speckle projection profilometry

期刊:Optics Express [2021]

年份:2021

这是南京理工大学左超教师课题组最新的深度学习 单目散斑结构光的最新工作发表在Optics Express下面作者对论文做了一个大致的翻译,供大家参考。

注:如果刚刚开始结构光的小白学生,可以报名参加我们车间推出的结构光课程:

1.从零开始建造一套结构光3D重建系统 [偏向实践]:https://mp.weixin.qq.com/s/dgc25DwLqJJlnq_d29qeZg

2.结构光系统教程[偏理论]:https://mp.weixin.qq.com/s/67mmu2dKzJ3hNvKCjn_Q7A

摘要

散斑投影轮廓测量法(SPP)立体图像之间的整体对应关系是通过投影单个散斑模式建立的,具有单镜头三维重建的优点。然而,SPP由于传统立体匹配算法的匹配精度较低,其三维测量精度从根本上受到限制。本研究提出了一种单镜头三维形状测量方法,采用端到端立体声匹配网络。建立高质量的SPP数据集,结合相移相测量和时间相位展开技术,通过相位匹配获得高精度绝对相位图,生成精确、高完整性的视差图。对于网络的系统结构,首先从散斑图像中同步提取具有1/4分辨率的紧凑特征张量,构建四维成本量。考虑到基于三维卷积的滤波计算成本较高,提出了轻量级三维滤波U-net网络实现高效的四维网络,精度约100um。

1 引言

基于结构光投影的光学三维测量已成为一种流行的非接触式三维形状测量技术[1]。它具有硬件配置简单、测量精度高、三维点云密度高重要的优点之一,技术前景广阔,广泛应用于工业检测和科研[2-5]。本质上,基于结构光的三维测量方法可以看作是通过在系统配置[6]中引入额外的光源发生器(如投影仪)来实现的三维视觉改进形式。光源发生器在被测场景[7]上投射一系列特定编码模式。与基于立体视觉的方法相比,基于结构化光的三维测量方法可以轻松克服弱纹理区域造成的匹配精度低的问题。

在基于结构光投影的三维形状测量方法中,条纹图案和散斑图案是两种常用的结构光图案。相应地,有两种主流方法:边缘投影轮廓测量(FPP)散斑投影轮廓法(SPP)。在FPP中,投影仪将一系列的条纹图案投射到被测量的场景上。相机同步捕捉被测对象调制的边缘图像,然后用傅里叶换轮廓仪(FTP)和移位轮廓仪(PSP)[18]处理各种相位检索技术,获取相位信息。但这些方法都采用弧切函数,只能提供2π相跳包裹相。因此,为了消除相位的模糊性,有必要将包裹的相位转换为绝对相位[19-25]。为了解决这个问题,我们提出了几种复合移相方案(如双频移相)PSP[26]、双频PSP[27]和2 2PSP[28])可以解决相位模糊不明显的问题

与FPP不同,SPP测量场景中的投影仪投射了散斑图案。用立体相机同步捕捉被测对象调制的散斑图像,然后用各种立体匹配技术处理,得到视差图。基于空间编码策略设计的投影散斑模式具有固有的整体独特性,这使得spp三维测量方法具有单镜头三维重建的优点。因此,如何图案设计方法的关键思想是如何确保局部斑点相对于整个投影图案[31]是唯一的。基于各种空间编码策略[7、32、33],这些投影模式的设计方法可分为三类:基于非正式编码[34、35]的策略DeBruijn基于m阵列[39]的序列策略[36-38]和策略。在过去的几十年里,研究人员提出了许多针对斑点的设计方法。然而,由于测量对象具有复杂的反射特性和透视图之间的差异,系统以每秒350帧/秒的速度高速、密集、准确地测量空间分离的对象。提出这些SPP该方法可以实现基于散斑投影的高性能三维测量,但不能从单个散斑图像中获得准确的三维数据。对于SPP,为了恢复复复杂表面的细节,它仍然缺乏使用单个散斑模式的三维匹配算法。

与传统的立体匹配方法相比,近年来提出了许多立体视觉深度学习方法,并取得了良好的立体匹配性能[45-52]。三维匹配通常有四个步骤,包括匹配成本计算、成本聚合、视差计算和视差细化,而传统的三维匹配方法使用非学习技术执行所有四个步骤。现有的基于学习的三维匹配方法试图利用深度学习来实现这四个步骤中的一个或多个,以获得更好的匹配结果。莱村等人[45]首先采用Siamese网络块匹配,获得初始匹配成本,然后基于典型的三维匹配程序,包括sgm为了进一步改进匹配结果,成本聚合、视差计算和视差细化。罗等人[46]输入不同大小的左右图像补丁cnn计算初始匹配成本,将二值分类问题转化为多分类任务,实现高效立体匹配。目前,一些端到端立体声匹配网络已经开发出来,可以预测整个视差图而不进行后处理。肯德尔和其他人[49]建议将参考图像的所有像素和视差范围内的所有候选像素的特征结合起来C×D×H×W(即特征×视差×高度×宽度)。通过一系列三维卷积层过滤。最终视差图使用微软最小值操作从滤波后的成本体积中返回,允许它在没有任何额外的后处理或正常化的情况下匹配亚像素精度。后来,常等人[51]提出了金字塔立体匹配网络(PSMNet),利用基于3DCNN空间金字塔池和多沙漏网进一步提高了匹配精度。张等人[52]将基于局部引导滤波的成本聚合子网引入现有成本聚合子网,以获得更好的匹配精度和网络泛化能力。

在这项工作中,我们提出了一种单镜头三维形状测量方法,利用端到端三维匹配网络测量斑点投影轮廓。基于学习的方法,使用高质量的数据集,包括输入数据和标签的真实值,是非常重要的。KITTI它是促进立体视觉[53]中深度学习发展的突出立体数据集。值得注意的是,KITTI非常具有挑战性,因为它的三维激光雷达获得的标签非常稀疏,精度很低。不同于我们的方法KITTI,通过结合12步PSP[18]和多频时间相位扩展技术[22]可以获得高完整性、高精度的绝对相位图,产生密集的视差图和亚像素精度的相位匹配,这将是我们三维匹配网络的高质量地面真相。对于我们提出的网络结构,首先从散斑图像中同步提取具有1/4分辨率的紧凑特征张量,用于构建四维成本。考虑到使用三维卷积层的成本滤波操作成本昂贵,提出了一种轻量级的三维U网络,实现高效的四维成本聚合,实现更高的匹配性能。此外,由于SPP数据集中的视差图(作为真实标签)只在前景中有效,因此我们的端到端网络集成到一个简单快速的端到端网络中,以避免预测视差图中的无效像素,包括屏蔽和背景,从而提高研究文章对有效像素的匹配精度。该方法与传统的立体匹配方法相比,匹配精度显着提高了约50%。实验结果表明,该方法可以通过单个散斑模式快速绝对地测量三维形状,测量精度约为100μm。

2 原理

在本节中,我们将提出一种单镜头三维形状测量方法,利用端到端三维匹配网络测量斑点投影轮廓。在我们的方法中,散斑模式和一系列条纹模式需要由投影仪投影到测量场景,并由三维摄像机同步捕获。首先对获得的散斑图像进行外极性校正,然后直接输入提出的端到端立体匹配网络,无背景获得相应的视差图。视差图通过高度视差映射转换为最终三维结果,如图1所示。显然,投影点模式和端到端三维声匹配网络共同决定了该方法的实际三维测量性能。

图1 本文提出了利用端到端立体匹配网络测量散斑投影轮廓的单三维形状测量方法

对于散斑模式,我们遵循了以往工作[31]中提出的简单有效的设计和评价方法。通过引入超极整流和深度约束,流和深度约束,唯一需要做的就是在预定义的局部一维范围内搜索相应的像素,而不是传统的全局二维范围,这意味着我们优化的局部斑点模式设计方法只需要与局部一维投影空间相比。在此基础上,投影散斑模式的设计和评估有助于提高三维测量性能。

端到端立体匹配网络有两个方面影响其最终立体匹配性能。首先,对于基于深度学习的网络方法,包括输入数据和标签真实值在内的数据集对有效训练立体匹配网络非常重要。在我们的方法中,使用一系列获得的边缘图像来生成具有亚像素精度的密集视差图SPP在测量复杂曲面物体时,数据集的高质量标签值可能决定了训练网络的最高匹配精度和鲁棒性。下一节我们将详细讨论如何FPP采用相移法和多频时间相位展开技术构建高质量SPP数据集。其次,对于我们提出的网络结构,虽然基于学习有大量的高性能三维匹配网络,但这些网络通常是KITTI三维数据集不能直接应用于训练和验证SPP。KITTI它是促进立体视觉[53]中深度学习发展的突出立体数据集。值得注意的是,KITTI很有挑战性,因为它的三维激光雷达标签稀疏,精度低。具体来说,KITTI它是自动驾驶领域的数据集,具有大规模、质地稀疏的特点,其三维重建精度为毫米。相比之下,我们的立体匹配网络旨在匹配强散斑纹理信息的对象,实现微米精度的高精度和稳定的三维测量。根据2.详细介绍2节。

2.1 利用FPP构建高质量SPP数据集

为了建立高质量的产品SPP数据集采用边缘投影轮廓测量法(FPP)地面标签采用高精度、密集的视差图。在一个常见的地方FPP系统中,PP有三个主要的处理步骤:相位提取、相位展开和相位到高度的映射。在相位恢复过程中,基于正弦条纹的FPP方法通常采用频域[15]的傅里叶变换方法或时域[18]的相移方法来检索包裹的相位。傅里叶变换轮廓测量法(FTP)具有单镜头相位提取的优点,但也存在频谱重叠问题。这些方法通常会产生低质量的粗包装相,因此难以实现高精度的三维采集。与FTP不同,相移轮廓测量法(PSP)可以实现像素级的相位测量,精度不受环境光的影响,但需要投影至少三种条纹图案才能在理论上获得相位图。

本研究采用了偏移量为2π/12的标准12步移相条纹图案,因为它对环境照明和不同的表面特性非常稳健:

最后,基于相位信息实现相位匹配,从两个角度最小化绝对相位之间的差,获得整数像素精度的视差图:

通过相位匹配,高精度、高密度的视差图可以作为图中我们的高质量SPP数据集的基本真实值得到。

图2:使用FPP系统构建高质量SPP数据集的原理图

2.2 端到端的立体匹配网络

在本小节中,提出了一种用于解决SPP中立体匹配问题的端到端立体匹配网络,与最先进的立体匹配方法相比,大大提高了匹配精度。现有的基于高性能学习的立体匹配网络通常在KITTI立体数据集上进行训练和验证。在KITTI立体数据集中,数据具有大规模、稀疏纹理的特性,相应的三维重建结果只有毫米的精度。相比之下,基于我们的高质量SPP数据集,我们的立体匹配网络旨在使用散斑图像对来实现具有微米级精度的鲁棒三维测量。此外,对于我们的SPP数据集的地面标签,样本数据的视差图仅在前景中有有效值,如图2所示。因此,我们很难天真地利用这些现有的端到端网络[50-52]直接获得最终的视差图,但我们的网络集成了一个简单快速的显著性检测网络,以避免预测视差图中的视差图,包括遮挡和背景等无效像素。具体来说,立体匹配网络示意图如图3所示:

图3所提出的端到端立体声匹配网络的示意图。整个立体匹配网络由多尺度残差子网(作为共享特征提取子网)、四维成本量构建、三维卷积层成本聚合、视差回归和显著性检测子网组成。

在图3中、整个立体匹配网络由多尺度残差子网(作为共享特征提取子网)、四维成本量的构建、三维卷积层的成本聚合、视差回归和显著性检测子网组成。值得注意的是,在首先执行立体匹配之前,要进行外极性校正,将二维搜索问题简化为一维匹配问题[54]。然后,在匹配成本计算的特征提取中,与传统不同的直接利用像素的灰度信息或颜色值进行对应匹配的方法,我们的目的是计算后续匹配过程中每个像素的特征表示。具体来说,基于学习的方法通常同时对输入的立体图像进行特征提取,以获取丰富的特征信息,以构建四维代价量作为初始匹配代价。因此,初始匹配代价对应的初始匹配精度很大程度地依赖于提取的特征信息的质量。

针对特征提取子网络,提出了一种多尺度残差网络来对输入的立体图像对进行处理,以获得丰富的多尺度特征信息。在该子网络中,散斑图像首先通过二维卷积层和4个残差块进行处理,得到64个通道的特征张量。考虑到后续成本聚合中的高分辨率匹配成本将消耗大量的计算开销,并占用昂贵的GPU内存,因此有必要对特征张量执行1/4的降采样操作。值得注意的是,提取低分辨率的特征张量并不是为了牺牲昂贵的计算代价,而是为了保持特征张量更紧凑,实现高效的特征提取。然后,低分辨率特征张量连续经过6个残差块,进一步扩展输出张量的每个像素的接受域。至关重要的是,网络产生的每个特征张量的每个像素必须具有更大的接受域,这样网络在预测期间[55]就不会忽略任何重要的特征信息。然后引入多尺度池化层,对输入张量进行1/4、1/16、1/64、1/256的降采样,进一步压缩和提取张量的主要特征,降低计算复杂度,防止过拟合。对于这四种下采样路径,特征张量都由一个卷积层、一组残差块和一个由双线性插值实现的上采样层进行顺序处理。在收集了这6条路径的特征张量后,沿通道轴对特征组合进行连接层处理。最后,通过一个二维卷积层、两个残差块和一个无ReLU的二维卷积层对特征张量进行处理,得到具有1/4分辨率的32通道特征张量。

在下一阶段,为了构造四维代价体积,将左图像中每个像素的特征张量与右图像上极线上局部视差范围内的所有相应候选像素连接起来。维度H×W×D×F(即高度×宽度×差异×特征的初始四维成本体积)如图4所示:

其中left feature和right feature代表特征提取子网从两个角度输出的1/4分辨率的特征张量,其尺寸(H×W×F/2)为240×320×32,摄像机为480×640分辨率。[2Dmin,2Dmax]是我们的SPP系统的视差范围。对于分辨率为1/4的特征张量,初始的四维成本量是基于范围[Dmin,Dmax]来构建的。Di是在[Dmin,Dmax]范围内的一个候选差异。D为绝对差异范围(Dmax−Dmin+1)。

图4四维成本量的原理示意图。基于SPP系统的视差范围,结合左图像中每个像素的特征张量和右图像上极线上所有相应的候选像素,建立初始四维代价体积。

在成本聚合方面,将使用三维卷积层进一步优化初始的四维成本体积。虽然在特征提取过程中已经进行了一些下采样操作,但事实上,具有1/4分辨率的4D成本卷仍然占用了大量的GPU内存。因此,我们提出了一种轻量级的3du网网络来实现高效的4d成本聚合。首先,采用三组三维卷积层,实现成本滤波,并将4D成本体积降采样1/4。然后,利用连续转位点的三维层对成本量进行上采样,并结合快捷操作,实现残余聚合。根据残差操作的输出,使用三个3D卷积层获取具有单通道特征的4D成本体积,然后通过上采样层获得最终的全分辨率4D成本体积。

在[49]中引入了视差回归,基于具有单通道特征的最终四维代价体积来估计视差图。每个候选差异的概率Di,使用软最大运算计算预测成本量。预测的视差图差异性(x,y)是由每个候选视差二的归一化概率的加权和得到的:

传统的立体匹配网络直接计算预测的视差图与地面真相之间的损失进行训练。但对于在我们的SPP系统中构建的数据集,样本数据的视差图仅在前景中有有效的值。因此,有必要在我们现有的网络中集成一个额外的显著性检测网络。目前,基于学习的显著性检测方法以其高精度、高效、低成本等优点得到了广泛的研究。其中,全卷积网络(FCN)是最有前途的网络架构之一,在各种知名数据集[56]上都取得了显著的成果。但在SPP数据集上,被测场景的空间结构相对简单,且显著性对象具有较强的散斑纹理信息,一个基于简单网络结构的显著性检测网络也可以获得良好的检测结果。为了避免提取冗余特征,将特征提取子网输出的两个角度的特征张量通过串联层直接堆叠。然后,通过一组残差块、连续转位二维层、另一组残差块和卷积层,对特征张量进行顺序滤波和上采样,得到一个具有全分辨率的单通道特征张量。最后,利用s型函数实现显著性检测掩模掩码(x、y)的回归,可以在没有背景的情况下预测视差图:

在训练过程中,我们使用Adam来最小化联合损失,从而更新参数化网络的权值。联合损失包括视差映射的平滑L1损失和显著性掩模的二进制交叉熵损失:

为了验证显著性检测网络的实际影响,无/与显著性检测网络的三维重建结果的比较如图5所示。如图中所示。5.我们没有显著性检测网络的测量结果在背景下存在严重的不匹配,这将会影响网络在训练过程中的收敛性,并降低网络的实际性能。因此,显著性检测网络是我们方法中一个附加但必要的模块,隐式地提高了有效像素的匹配精度。

图5 与无显著性检测网络的三维重建结果的比较。(a)是没有显著性检测网络的三维重建结果。利用显著性检测网络进行(b)的三维重建结果。(c)真实标签。

3 实验

为了验证该方法的实际三维测量性能,我们建立了一个具有较宽基线的通用的基于立体视觉的SPP系统,如图所示。1、由两个单色相机(BasleracA640-750um,分辨率为640×480)和一个DLP投影仪(闪电破解4500,分辨率为912×1140Pro)组成。由于立体相机之间的基线约为270mm,我们系统的视差约束应适当设置为-100至59像素,以测量深度范围为−100mm至100mm的物体。测量系统与待测对象之间的距离约为900mm。此外,基于我们之前的工作[31],我们还设计和评估了投影的散斑模式,以获得最佳的三维测量性能。

在我们的实验中,我们收集了包含1200个不同场景的数据集,它们由随机的30个简单和复杂的物体组成。整个数据集有1200对图像对,分别分为800对图像对用于训练,200对图像对用于验证,200对图像对用于测试。在训练过程中,为了监控神经网络中他们从未见过的样本的准确性,这些训练、验证和测试数据集中的场景是相互分开的。此外,为了实现高鲁棒性和高精度的立体匹配,所提出的立体匹配网络在训练过程中一次只能处理一对立体图像,占用约23GB的图形存储器。训练期设为200轮,大约需要5天。该网络的视差预测需要0.95秒。

3.1 端到端的立体匹配网络

首先进行了比较实验,揭示了该方法与两种传统方法(ZNCC[57]和SGM_Census[41,42])和两种基于学习的方法(在我们之前的工作[55]中提出的Luo的[46]和BM_DL方法)相比的高性能。对于单次拍摄的SPP来说,测量具有边缘、复杂或不连续表面的物体是一项具有挑战性的任务。为了验证这些方法扫描这些具有挑战性的表面,测量了两个不同的物体,包括大卫模型和伏尔泰雕像。通过ZNCC、SGM_Census、Luo的方法、BM_DL和我们的方法得到的相应的三维重建结果如图所示。6个(a)和(c)。

图6 比较了使用不同方法进行的三维重建结果。(a)David模型的三维重建结果,(b)David模型的匹配误差,(c)伏尔泰雕像的三维重建结果,(d)伏尔泰雕像的匹配误差。

ZNCC准则在实际应用中非常常见,因为它对局部匹配块强度的偏移和尺度变化不敏感,与其他准则[57]相比,它提供了最准确和可靠的位移估计。在ZNCC中,通过块匹配计算匹配成本,获得整数像素视差图,然后通过5点二次曲线拟合模型[14]进行细化,得到亚像素视差图。为了提高ZNCC的匹配性能,经过详尽的经验搜索,将块匹配中的块大小确定为19×19。然而,块匹配的基本假设是匹配窗口中的所有像素都有相似的差异。因此,这一假设不适用于视差不连续,导致物体边界和薄结构中边缘育肥问题[58,59]对应的三维结果,如图6所示.

与ZNCC相比,SGM_Census可以提供密集的三维测量结果。在SGM_Census中,采用相同块大小为19×19的人口普查变换计算初始匹配成本,然后使用一系列后处理操作获得三维结果,包括8条路径的1维成本聚合、赢家通吃(WTA)和二次曲线拟合[41]。然而,SGM_Census通过平滑视差图来避免不匹配,以实现可靠的立体匹配,但以牺牲三维测量精度为代价,如图6所示利用ZNCC和SGM_Census可以发现存在一些明显的错配区域和低精度的三维测量结果,证明了这些非参数匹配方法在基线较宽的SPP系统上难以提供可靠、高精度的匹配结果。

与这些传统方法不同的是,我们还实现了两种基于学习的方法(Luo的方法和BM_DL)来进行比较。在这两种方法中,利用网络实现了匹配成本计算。在罗的方法中,将一对块数据(以左图中要匹配的点为中心,右图中所有对应的候选点)同时输入网络,在预定义的局部视差范围内搜索正确的候选点。为了实现立体匹配的高性能,采用了基于暹罗结构的块匹配网络,以产生更好的初始匹配成本。与SGM_Census类似,使用一系列相同的后处理操作来得到三维结果,如图6所示。此外,我们在之前的工作中提出的BM_DL是罗的方法的一个增强版本。在BM_DL的块匹配网络中,在网络的头部堆叠了一些额外但必要的卷积层和剩余块,以进一步提高特征提取的能力。此外,我们还利用具有共享权值的全连通层来代替原来的内积,从而提高了网络相似度度量的精度。它在图中很容易找到。6与SGM_Census和Luo的方法相比,BM_DL可以输出更准确、更密集的视差结果。然而,BM_DL所实现的测量精度并不能满足高精度三维测量应用的要求。如何利用端到端网络来实现更高效的三维匹配是值得研究的。

显然,在图6中所提出的端到端立体声匹配网络通过单次测量得到了高质量的三维重建。与使用12步移相条纹模式的地面真相进行对比,如图6所示。由于立体匹配的局部平滑性的固有特性,在我们的三维重建结果中存在一些具有轻微失真和表面模糊的局部细节。但是,我们的方法可以获得更接近地面真实值的高精度三维结果。基于这些实验结果,我们很容易得出结论,我们的匹配网络可以实现在几种SPP方法中性能最好的三维测量。

此外,与地面真实值相比,不同方法的匹配误差如图所示。6(b)和6(d)及其相应的定量分析结果见表1。为了保证分析结果的客观性,我们利用这些方法得到的视差结果与地面真实值之间的差异来作出准确的判断。点的数是地面值中有效点的和。缺失比是指地面真相中有效点,而这些视差结果中无效点的比例。对于ZNCC、SGM_Census、Luo的方法和BM_DL,采用4连通图像分割方法对视差图进行处理,以识别和去除像素较少[41]的片段。我们的方法利用显著性检测子网生成的掩模,直接去除视差图中的包括遮挡和背景在内的无效像素。然后,通过计算地面真实值的绝对视差差大于1像素的有效点的数量,很容易得到误差比。将所有剩余的有效点视为正确的点,然后根据不同的视差精度进一步细分,包括1像素、0.5像素和0.2像素。

它可以从表1可以看出,我们方法的缺失率和误差比均低于2%和6%。该方法的正确率高于93%,且大部分像素的视差精度均低于0.5像素。结果表明,与传统的立体匹配方法相比,该方法的匹配精度显著提高了约50%。该方法对复杂曲面和具有几何不连续性的物体具有具有较高的正确性和较高的完整性的鲁棒性三维形状测量。

表格1 不同方法的定性结果

3.2 精度分析

此外,为了利用所提出的端到端立体声匹配网络来定量评估我们的系统的精度,我们测量了一个陶瓷平面和一对直径为50.8mm的标准陶瓷球体。图7(a)和图7(b)显示了相应的三维重建结果。然后,根据得到的三维重建数据,进行平面拟合,得到作为地面真相的理想平面。计算测量平面与理想平面之差,得到三维测量误差,如图所示。7(c)。这些差异的定量直方图如图所示。7(f)。我们很容易发现,主要的测量误差都小于200µm,RMS分别为101.65µm。同样地,对于一对标准陶瓷球体的三维测量,如图所示。7(b),采用球体拟合得到实际测量误差,如图所示。7(d)和7(e)。三维测量精度的均方根约为100µm,如图所示。7(g)和7(h)。

图7 用我们的方法测量一个陶瓷平面和一对标准陶瓷球的精确分析。(a)陶瓷平面的三维重建结果,(b)一对标准陶瓷球的三维重建结果,(c)-(e)相应的分布的测量误差(a)-(b),和(f)-(h)相应的定量直方图(a)-(b)的测量误差

另外,不同方法的精度分析结果见表2。对于陶瓷平面,使用ZNCC获得的测量误差小于200µm,RMS为103.04µm。这一结果的原因是基于块匹配的基本假设,所有像素存在相似的差异。然而,这种假设并不适用于测量带有边缘、复杂或不连续面的对象。对于标准的陶瓷球体,ZNCC只能生成粗糙的三维测量结果,匹配误差很多,如图8所示。注意,通过球拟合,实际测量误差大于1mm。在去除离群值后,提高了测量精度,但是显著的仍大于300µm。使用ZNCC的陶瓷球半径误差大于表2中的1mm。相比之下,SGM_Census提供了测量平面和球体的测量结果。同样,Luo的方法和BM_DL也可以实现对测量平面和球体的鲁棒性和更精确的测量。然而,这些方法都使用相同的后处理操作,通过平滑视差图来实现可靠的立体匹配,但代价是匹配精度。与这些方法不同的是,无论是测量平面还是球,还是计算均方根或半径误差,我们的方法可以实现鲁棒的三维形状测量,精度最好。结果表明,该方法可以显著提高SPP的匹配精度,并获得高精度的三维重建结果。

图8 使用ZNCC测量一对标准陶瓷球体的精密度分析。(a)陶瓷球的三维重建结果,(b)相应的测量误差的分布(a),(c)相应的分布测量误差(a)异常值去除后,(d)陶瓷球的三维重建结果B,(e)(d)的测量误差的相应分布,和(f)相应的分布测量误差(d)异常值去除后。

表2 不同方法的精度分析结果

3.3 快速3D表面成像

图9 一个动态场景的三维重建结果:一个移动的David模型(可视化1)。(a)-(c)David模型沿Z轴移动,(d)-(f)David模型围绕Y轴旋转。

最后,我们的系统被用于记录一个动态的快速测量三维形状的场景:一个移动的David模型,如图9所示本实验将相机的曝光时间设置为39.2ms,以25Hz的速度捕获散斑图像,实现25fps的三维重建。图9显示了不同时间点的彩色编码的三维重建结果。在整个动态测量过程中,David模型首先沿着Z轴向前移动,并在2.8秒时到达预定义的测量空间的边界。然后,David模型沿着5.76秒的Z轴反向移动到预定义的测量空间的另一个边界。此外,David模型返回到初始位置,并开始围绕Y轴旋转。最后,它将在15.8秒内再次回到原点位置。整个三维测量结果可参考可视化1。在整个测量过程中,David模型的三维表面得到了正确的、高质量的重构,验证了该方法在高速下进行高完整性的绝对三维形状测量的可靠性。

4 总结

综上所述,我们提出了一种基于普通基于立体视觉的SPP系统的端到端立体匹配网络的单镜头三维形状测量方法。为了有效地训练立体匹配网络,首先在FPP中结合相位轮廓测量(PSP)和时间相位展开技术,建立了高质量的SPP数据集。利用FPP获得的高精度绝对相位图,通过相位匹配生成了作为数据集的地面真实度的准确、密集的视差图。对于该网络的体系结构,该网络首先利用多尺度残差子网从散斑图像中同步提取分辨率为1/4的紧凑特征张量,以构建四维代价量。虽然在特征提取过程中已经进行了一些下采样操作,但事实上,具有1/4分辨率的4D成本卷仍然占用了大量的GPU内存。因此,提出了一种轻量级的三维u-网网络来实现高效的四维成本聚合,以实现更高的匹配性能。考虑到视差图(地面真相)SPP数据集的有效值只有在前景,提出了一个简单和快速的显著性检测网络和集成到我们的网络,以避免增强无效像素的视差图包括遮挡和背景,从而隐式地提高有效像素的匹配精度。对不同方法的实验比较表明,与传统方法相比,该方法对复杂曲面的物体具有较高的鲁棒性和三维形状测量。定量分析结果再次表明,与传统的立体匹配方法相比,该方法的匹配精度显著提高了约50%。精度分析的实验结果表明,该方法仅通过单一散斑模式就能实现精度约为100µm的绝对三维形状测量。动态测量实验验证了该方法的成功性,因为它能够在25帧每秒的复杂场景中有效地实现快速、准确的三维形状测量。

最后,该方法还有几个方面有待进一步改进。首先,由于所提出的网络中成本聚合存在许多昂贵的三维卷积,初始成本体积提前1/4降采样,这无疑大大降低了立体声匹配的精度。因此,如何实现更有效的成本聚合仍然是一个有待解决的问题。其次,我们很容易理解,投影多个散斑图像可以提高三维测量的精度,因为可以利用更多的约束条件来完全保证被测场景的全局唯一性。如何通过同时输入多个散斑图像来提高立体匹配网络的测量精度,是另一个有待进一步研究的有趣方向。第三,提出网络需要0.95秒,比运行在GPU上的大多数现有算法要慢,应考虑如何实现快速的立体声匹配。可以发现,该网络中的成本聚合占了总运行时间的大部分。同样,成本聚合也需要进一步优化子网,以提高立体声匹配的精度,减少运行时间。最后,与传统的非学习方法不同的是,学习方法对于测量具有复杂反射特征或高反射率的不同物体的泛化能力有待进一步研究和讨论,从而实现更可靠的三维形状测量。基于此分析,我们将探索更多的其他方法来设计一个具有更高性能的单镜头SPP系统。

5 参考文献

1. S. S. Gorthi and P. Rastogi, “Fringe projection techniques: whither we are?” Opt. Laser Eng. 48(2), 133–140 (2010).

2. S. Feng, L. Zhang, C. Zuo, T. Tao, Q. Chen, and G. Gu, “High dynamic range 3d measurements with fringe projection

profilometry: a review,” Meas. Sci. Technol. 29(12), 122001 (2018).

3. Z. Zhang, “Review of single-shot 3d shape measurement by phase calculation-based fringe projection techniques,”

Opt. Laser Eng. 50(8), 1097–1106 (2012).

4. W. Yin, S. Feng, T. Tao, L. Huang, S. Zhang, Q. Chen, and C. Zuo, “Calibration method for panoramic 3d shape

measurement with plane mirrors,” Opt. Express 27(25), 36538–36550 (2019).

5. Q. Zhang and X. Su, “High-speed optical measurement for the drumhead vibration,” Opt. Express 13(8), 3110–3116

(2005).

6. Z. Zhang, S. Huang, S. Meng, F. Gao, and X. Jiang, “A simple, flexible and automatic 3d calibration method for a

phase calculation-based fringe projection imaging system,” Opt. Express 21(10), 12218–12227 (2013).

7. J. Salvi, J. Pages, and J. Batlle, “Pattern codification strategies in structured light systems,” Pattern Recognition 37(4),

827–849 (2004).

8. S. Zhang, “High-speed 3d shape measurement with structured light methods: A review,” Opt. Laser Eng. 106,

119–131 (2018).

9. C. Zuo, T. Tao, S. Feng, L. Huang, A. Asundi, and Q. Chen, “Micro fourier transform profilometry (µftp): 3d shape

measurement at 10, 000 frames per second,” Opt. Laser Eng. 102, 70–91 (2018).

10. S. Zhang, “Absolute phase retrieval methods for digital fringe projection profilometry: A review,” Opt. Laser Eng.

107, 28–37 (2018).

11. W. Yin, C. Zuo, S. Feng, T. Tao, Y. Hu, L. Huang, J. Ma, and Q. Chen, “High-speed three-dimensional shape

measurement using geometry-constraint-based number-theoretical phase unwrapping,” Opt. Laser Eng. 115, 21–31

(2019).

12. M. Schaffer, M. Grosse, B. Harendt, and R. Kowarschik, “High-speed three-dimensional shape measurements of

objects with laser speckles and acousto-optical deflection,” Opt. Lett. 36(16), 3097–3099 (2011).

13. M. Schaffer, M. Grosse, and R. Kowarschik, “High-speed pattern projection for three-dimensional shape measurement

using laser speckles,” Appl. Opt. 49(18), 3622–3629 (2010).

14. P. Zhou, J. Zhu, and H. Jing, “Optical 3-d surface reconstruction with color binary speckle pattern encoding,” Opt.

Express 26(3), 3452–3465 (2018).

15. X. Su and W. Chen, “Fourier transform profilometry: a review,” Opt. Laser Eng. 35(5), 263–284 (2001).

16. Q. Kemao, “Two-dimensional windowed fourier transform for fringe pattern analysis: principles, applications and

implementations,” Opt. Laser Eng. 45(2), 304–317 (2007).

17. S. Feng, Q. Chen, G. Gu, T. Tao, L. Zhang, Y. Hu, W. Yin, and C. Zuo, “Fringe pattern analysis using deep learning,”

Adv. Photonics 1(2), 025001 (2019).

18. C. Zuo, S. Feng, L. Huang, T. Tao, W. Yin, and Q. Chen, “Phase shifting algorithms for fringe projection profilometry:

A review,” Opt. Laser Eng. 109, 23–59 (2018).

19. X. Su and W. Chen, “Reliability-guided phase unwrapping algorithm: a review,” Opt. Laser Eng. 42(3), 245–261

(2004).

20. M. Zhao, L. Huang, Q. Zhang, X. Su, A. Asundi, and Q. Kemao, “Quality-guided phase unwrapping technique:

comparison of quality maps and guiding strategies,” Appl. Opt. 50(33), 6214–6224 (2011).

21. Y. Wang and S. Zhang, “Novel phase-coding method for absolute phase retrieval,” Opt. Lett. 37(11), 2067–2069

(2012).

22. C. Zuo, L. Huang, M. Zhang, Q. Chen, and A. Asundi, “Temporal phase unwrapping algorithms for fringe projection

profilometry: A comparative review,” Opt. Laser Eng. 85, 84–103 (2016).

23. K. Zhong, Z. Li, Y. Shi, C. Wang, and Y. Lei, “Fast phase measurement profilometry for arbitrary shape objects

without phase unwrapping,” Opt. Laser Eng. 51(11), 1213–1222 (2013).

24. X. Liu, Y. Yang, Q. Tang, Z. Cai, X. Peng, M. Liu, and Q. Li, “A method for fast 3d fringe projection measurement

without phase unwrapping,” in Sixth International Conference on Optical and Photonic Engineering (icOPEN 2018),

vol. 10827 (International Society for Optics and Photonics, 2018), p. 1082713.

25. W. Yin, Q. Chen, S. Feng, T. Tao, L. Huang, M. Trusiak, A. Asundi, and C. Zuo, “Temporal phase unwrapping using

deep learning,” Sci. Rep. 9(1), 20175 (2019).

26. K. Liu, Y. Wang, D. L. Lau, Q. Hao, and L. G. Hassebrook, “Dual-frequency pattern scheme for high-speed 3-d

shape measurement,” Opt. Express 18(5), 5229–5244 (2010).

27. C. Zuo, Q. Chen, G. Gu, S. Feng, and F. Feng, “High-speed three-dimensional profilometry for multiple objects with

complex shapes,” Opt. Express 20(17), 19493–19510 (2012).

28. C. Zuo, Q. Chen, G. Gu, S. Feng, F. Feng, R. Li, and G. Shen, “High-speed three-dimensional shape measurement

for dynamic scenes using bi-frequency tripolar pulse-width-modulation fringe projection,” Opt. Laser Eng. 51(8),

953–960 (2013).

29. X. Su and Q. Zhang, “Dynamic 3-d shape measurement method: a review,” Opt. Laser Eng. 48(2), 191–204 (2010).

30. S. Feng, C. Zuo, T. Tao, Y. Hu, M. Zhang, Q. Chen, and G. Gu, “Robust dynamic 3-d measurements with

motion-compensated phase-shifting profilometry,” Opt. Laser Eng. 103, 127–138 (2018).

31. W. Yin, S. Feng, T. Tao, L. Huang, M. Trusiak, Q. Chen, and C. Zuo, “High-speed 3d shape measurement using the

optimized composite fringe patterns and stereo-assisted structured light system,” Opt. Express 27(3), 2411–2431

(2019).

32. B. Pan, Z. Lu, and H. Xie, “Mean intensity gradient: an effective global parameter for quality assessment of the

speckle patterns used in digital image correlation,” Opt. Laser Eng. 48(4), 469–477 (2010).

33. Z. Chen, X. Shao, X. Xu, and X. He, “Optimized digital speckle patterns for digital image correlation by consideration

of both accuracy and efficiency,” Appl. Opt. 57(4), 884–893 (2018).

34. M. Ito and A. Ishii, “A three-level checkerboard pattern (tcp) projection method for curved surface measurement,”

Pattern Recognit. 28(1), 27–40 (1995).

35. M. Maruyama and S. Abe, “Range sensing by projecting multiple slits with random cuts,” IEEE Trans. Pattern Anal.

Machine Intell. 15(6), 647–651 (1993).

36. K. L. Boyer and A. C. Kak, “Color-encoded structured light for rapid active ranging,” IEEE Transactions on Pattern

Analysis Mach. Intell. pp. 14–28 (1987).

37. L. Zhang, B. Curless, and S. M. Seitz, “Rapid shape acquisition using color structured light and multi-pass dynamic

programming,” in First International Symposium on 3D Data Processing Visualization and Transmission, (IEEE,

2002), pp. 24–36.

38. J. Pagès, J. Salvi, C. Collewet, and J. Forest, “Optimised de bruijn patterns for one-shot shape acquisition,” Image

Vis. Comput. 23(8), 707–720 (2005).

39. H. Morita, K. Yajima, and S. Sakata, “Reconstruction of surfaces of 3-d objects by m-array pattern projection

method,” in 1988 IEEE Conference on International Conference on Computer Vision, (IEEE, 1988), pp. 468–473.

40. S. Heist, P. Dietrich, M. Landmann, P. Kühmstedt, G. Notni, and A. Tünnermann, “Gobo projection for 3d

measurements at highest frame rates: a performance analysis,” Light: Sci. Appl. 7(1), 71 (2018).

41. H. Hirschmuller, “Stereo processing by semiglobal matching and mutual information,” IEEE Trans. Pattern Anal.

Mach. Intell. 30(2), 328–341 (2008).

42. H. Hirschmuller and D. Scharstein, “Evaluation of stereo matching costs on images with radiometric differences,”

IEEE Trans. Pattern Anal. Mach. Intell. 31(9), 1582–1599 (2009).

43. F. Gu, Z. Song, and Z. Zhao, “Single-shot structured light sensor for 3d dense and dynamic reconstruction,” Sensors

20(4), 1094 (2020).

44. A. Geiger, M. Roser, and R. Urtasun, “Efficient large-scale stereo matching,” in Asian conference on computer vision,

(Springer, 2010), pp. 25–38.

45. J. Zbontar and Y. LeCun, “Computing the stereo matching cost with a convolutional neural network,” in 2015 IEEE

Conference on Computer Vision and Pattern Recognition, (IEEE, 2015), pp. 1592–1599.

46. W. Luo, A. G. Schwing, and R. Urtasun, “Efficient deep learning for stereo matching,” in 2016 IEEE Conference on

Computer Vision and Pattern Recognition, (IEEE, 2016), pp. 5695–5703.

47. J. Pang, W. Sun, J. S. Ren, C. Yang, and Q. Yan, “Cascade residual learning: A two-stage convolutional neural

network for stereo matching,” in 2017 IEEE Conference on International Conference on Computer Vision Workshops,

(IEEE, 2017), pp. 887–895.

48. N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox, “A large dataset to train convolutional

networks for disparity, optical flow, and scene flow estimation,” in 2016 IEEE Conference on Computer Vision and

Pattern Recognition, (IEEE, 2016), pp. 4040–4048.

49. A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry, R. Kennedy, A. Bachrach, and A. Bry, “End-to-end learning

of geometry and context for deep stereo regression,” in 2017 IEEE Conference on International Conference on

Computer Vision, (IEEE, 2017), pp. 66–75.

50. S. Khamis, S. Fanello, C. Rhemann, A. Kowdle, J. Valentin, and S. Izadi, “Stereonet: Guided hierarchical refinement

for real-time edge-aware depth prediction,” in 2018 IEEE Conference on European Conference on Computer Vision

(ECCV), (IEEE, 2018), pp. 573–590.

51. J.-R. Chang and Y.-S. Chen, “Pyramid stereo matching network,” in 2018 IEEE Conference on Computer Vision and

Pattern Recognition, (IEEE, 2018), pp. 5410–5418.

52. F. Zhang, V. Prisacariu, R. Yang, and P. H. Torr, “Ga-net: Guided aggregation net for end-to-end stereo matching,” in

2019 IEEE Conference on Computer Vision and Pattern Recognition, (IEEE, 2019), pp. 185–194.

53. A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the kitti vision benchmark suite,” in

2012 IEEE Conference on Computer Vision and Pattern Recognition, (IEEE, 2012), pp. 3354–3361.

54. R. Hartley and A. Zisserman, Multiple view geometry in computer vision (Cambridge University, 2003).

55. W. Yin, J. Zhong, S. Feng, T. Tao, J. Han, L. Huang, Q. Chen, and C. Zuo, “Composite deep learning framework for

absolute 3d shape measurement based on single fringe phase retrieval and speckle correlation,” JPhysPhotonics 2,

045009 (2020).

56. A. Borji, M.-M. Cheng, Q. Hou, H. Jiang, and J. Li, “Salient object detection: A survey,” Comp. Visual Media 5(2),

117–150 (2019).

57. B. Pan, H. Xie, and Z. Wang, “Equivalence of digital image correlation criteria for pattern matching,” Appl. Opt.

49(28), 5501–5509 (2010).

58. D. Min, J. Lu, and M. N. Do, “A revisit to cost aggregation in stereo matching: How far can we reduce its

computational redundancy?” in 2011 International Conference on Computer Vision, (IEEE, 2011), pp. 1567–1574.

59. D. Scharstein and R. Szeliski, “A taxonomy and evaluation of dense two-frame stereo correspondence algorithms,”

Int. J. Comput. Vis. 47(1/3), 7–42 (2002).

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章