锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

SCADC-

时间:2023-05-27 03:37:00 201型载重传感器

本期分享一篇新文章:Scene Completeness-Aware Lidar Depth Completion for Driving Scenario”。作者构建了一个传感器集成网络,整合了基于双眼视差的深度图和雷达形成的稀疏完整深度图,利用上层场景更结构化的三维匹配的深度,以及激光雷达完成的更高精度的深度,生成了完整、性感、准确的深度图。

  • 研究背景

无人驾驶在室外深度传感方面具有较高的精度和实用性,通常采用激光雷达作为主要的深度采集传感器。然而,激光雷达扫描仅限于扫描空间线的数量和空间分辨率,因此当与我们看到的图像对齐时,它们是稀疏的。因此利用KITTI对稀疏激光雷达深度的研究非常有价值。然而,在稀疏和深度完成之前,我们只关注汽车的前部、中部和下部,而不关注上部场景,但上部场景也很有用。例如,卡车或高度限制需要使用上部空间感知,因此补充上部空间非常重要。重点区域如下图所示:

图 本文研究区示意图

  • 网络结构

本文主要提出SCADC:场景完整性感知深度补充。所有网络图如下:三维匹配神经网络和雷达深度补充网络输出图像,以上两个图像为SCADC输入,其中SCADC注意点的信度(APC)回到置信度图,加权集成多模态信息,然后将集成图像输入堆叠沙漏网络进行深度细化估计,最后输出细深度补充图。

图 2 SCADA示意图

首先介绍三维匹配神经网络:PSMNet

PSMNet

立体匹配神经网络,是通过视差计算双目摄像头形成的图像,得到深度图。这个过程类似于人眼测量的深度。PSMNet结构图如下图所示:

图 3立体匹配PSMNet示意图

他的过程如上图所示,卷积、空间金字塔池化、卷积、融合计算视差的匹配成本卷(比较两张图的相关关系,比较两张特征图,以两张特征图的差异为基础 cost volume。)然后将获得的图像输入3DCNN预测图显示了采样回归计算的深度。当双目图像分别处理时,权重值是共享的,因为左右相机得到的图像几乎相同,但视差不断,所以权重值可以共享,以达到减少计算量的效果。

这里重点介绍一下SPP(空间金字塔池化)和3DCNN过程。

SPP( 空间金字塔池化)

要使用空间金字塔池化,必须了解其解决的问题,SPP解决的主要问题是CNN为什么输入图像大小必须固定?CNN因为在CNN全连接层经权值训练后,输入维度固定,导致前卷积池固定,空间金字塔池是中间过度,可以解决这个问题。详见下图:

图 4空间金字塔池化(例)

首先是输入层(input image),它的大小可以是任意的,然后是卷积,它的大小也是任意的到最后一个卷积层,输出该层的特征映射(feature maps)进入池化层,这里是空间金字塔池化,他的输入层:任何大小的图片, 输出层:21个神经元。也就是说,当我们输入任何大小的特征图时,我们希望提取21个特征。提取空间金字塔特征的过程如下:图片尺度划分如上图所示。当我们输入图片时,我们使用不同尺寸的刻度来划分图片。在上面的示意图中,使用了三个不同尺寸的刻度来划分输入图片,最终总共可以得到16 4 1=21块,我们即将从这21块中提取一个特征,这正是我们想要提取的21维特征向量。在第一张图片中,我们将一张完整的图片分成16块,提取16个特征,256是通道数。同样,第二张图片提取了4个特征和21个最后一个特征。这里使用的最大池化过程实际上是计算每个块的最大值,以获得输出神经元。最后,将任何大小的图片转换为固定大小的21维特征。结合不同层次的特点,空间金字塔池化模块有助于立体匹配。

3D-CNN

为了将特征信息聚合在视差维度和空间维度上,我们提出了三种类型D CNN调整匹配成本卷:基础结构和堆叠沙漏结构。如下图。在基础设施中,网络由简单的残余块组成。基础结构包括123*3*3的卷积层。然后我们将匹配代价卷的尺寸恢复到双线插值的上采样H*W*D。最后,用回归计算尺寸H*W的视差。

图 5 3D CNN示意图

为了获得更多的环境信息,这里使用沙漏(编码解码)结构,由中间层监督的多个重复过程组成。堆叠的沙漏结构有三个主要的沙漏网络,每个都会产生视差图。这样三个沙漏结构就会由三个输出和三个损失。在训练过程中,总损失由三个损失值的加权要求和获得。在测试过程中,三个输出中的最后一个得到最终的视差图。

下面详细介绍一下堆叠的沙漏结构,因为以后会用到。这是堆叠沙漏结构的示意图。

图 6 堆叠沙漏结构示意图

(1)右边像左边的镜像,倒序复制一个(c4b-c1b),总的来说,它看起来像一个沙漏

(2)上面也复制了一份(c4a-c1a),每个方块也通过加号与右侧相应位置的方块合并。

来分析下c4b这个网络层,它是由的c7和c4a合并后,这里有两个操作:

(1)c7层通过上采样将分辨率翻倍

(2)c4a层与c四层的大小保持一致,可视为c四层的副本,大小 是c7的两倍正好是被采样后的两倍c7.如果大小一致,数值可以直接加起来,那就得到了c4b

Stacked Hourglass Networks:Hourglass该模块为对称结构,该网络结构包含构pooling和upsampling的步骤,pooling用于提取特征,减少冗余,upsampling它可以与多个分辨率的特征相结合。降采样使用max pooling,采样采用最近的邻插值。

回到PSMNet结构,后面是上采样过程和回归计算深度过程。检查回归采用加权视差回归softmax函数获得每个视察预测成本的概率,预测成本来自之前匹配成本卷的地方),然后求和获得视差。

平滑后使用损失函数L1正则化。

PSMNet双目深度测量结果

图 7 PSMNet得到的深度图

这个结果可以看车窗部分,应该与车身深度一致,只有PSMNet效果最好,其他深度都不准。

然后介绍稀疏雷达深度补全:SSDC

SSDC(自监督稀疏深度到密集深度)

接下来介绍第二个基于激光雷达的稀疏深度补全,首先介绍下什么是稀疏深度补全,深度补全,一种从稀疏深度图到估计密集深度图的技术,在自动驾驶中由很大的应用。  从激光雷达测量中进行深度补全是有挑战性的,有以下几个原因:第一个,雷达测量结果在图像空间内是高度稀疏的和不规则分布的;第二点,提升预测的准确性是一个艰巨的任务来,因为深度图和彩色图是不同的传感模式;第三点,密集的深度真值是不存在的,像素级别的标注是需要大量人工的和不可扩展的。这里的网络,将深度补全问题构建为一个深度回归学习问题。网络图如下图。为了便于注释,我们用d作为稀疏深度输入(没有测量到深度的像素设置为0),RGB为彩色图(或灰度图),pred为预测的深度。

图 8 稀疏深度补全网络示意图

这里所提出的⽹络遵循编码器-解码器范式所⽰。跳跃连接⽤虚线表⽰,圆圈表⽰通道的串联。编码器由⼀系列卷积组成,滤波器组增加以对特征空间分辨率进行下采样。另⼀⽅⾯,解码器具有反转结构,带有转置卷积以对空间分辨率进行上采样。

输入的稀疏深度和彩色图,当存在时,是用它们的初始卷积分别处理的。卷积过的输出被拼接成一个单独量,作为残差模块ResNet的输入。各个编码层的输出,通过跳跃连接,传输给相应的解码层。一个最终的1x1卷积滤波器,输出一个预测图像,具有和网络输入图像相同的分辨率。在推断的过程中,低于用户定义的阈值m的预测会被裁剪为m。我们经验性地将m设置为0.9米,是雷达最小有效感应距离。

在没有彩色图像地情况下,我们简单移除RGB分支,采用了一组稍微不同的超级参数,滤波器的数目需要减去RGB分支。

这里的自监督主要是克服标签不足的缺点,因为现存的工作在深度补全上,依赖密集标注真值进行训练。然而,密集标注的真值一般不存在。甚至半密集标签的获得在技术上是一个挑战。这里提出了一个基于模型的自我监督框架来进行深度补全。这个框架仅需要一个同步序列,即从单目相机获得的彩色图和从激光雷达获得的稀疏深度图。因此,这个自我监督框架不需要依赖任何其他传感器,手工标记工作,或其他的基于学习的算法例如构建模块。而且,这个框架不依赖于任何一个特定的神经网络结构的选择。

自监督网络如下:

图 9 深度补全过程的自我监督框架

 这个自我监督框架正如上图所示。在训练期间,当前数据帧RGBd1和附近的数据帧RGB2均用于提供监视信号。然而,在推理时间,只有当前帧RGBd1需要需要作为输入来产生一个深度预测pred1。

稀疏深度监督. 稀疏深度d1本身可以被用作一个监督信号。具体来说,我们对已知稀疏深度的像素集上的网络的输入和输出之间的差异进行惩罚,以此来鼓励在这个像素集上有确定的映射。损失函数引领我们获得更高的准确性,提升稳定性,更快的收敛来进行训练。当前数据帧RGBd1和附近的数据帧RGB2经过一个多点透视成像,一个点对点的对比,然后形成姿态检测对比后面warped是一个借助之前的透视姿态进行矫正的预测得图像。(没有查到相关资料,并不是很明白)

接着回到本篇论文的SCADC 结构,将两个方法形成的深度图作为输入,利用APC进行多模态融合,这两幅图是一个互补得关系。下面介绍APC过程。APC网络图如下:

图 10 APC过程示意图

多模态融合阶段,利用了早期的融合策略。早期融合在编码阶段之前融合了多模态信息,具有保留更精细的局部结构和邻域关系的优点。相对于早期融合,后期融合通常被用于多模态学习中,利用来自不同领域的模态来获取更高层次的语义,例如融合图像信息和深度。这里的SCADC只在深度域上进行信息融合,为了保留局部特征和结构,因此早期融合更可取。

在APC中应用了SAConv引⼊了分割感知掩码,让卷积算⼦“关注”与分割掩码⼀致的信号。为了从可靠来源传播信息,这里使⽤稀疏掩码使卷积运算处理来⾃可靠位置的信号。这里的SAConv 和局部注意力掩码的不同之处在于 SAConv 不应⽤掩码归⼀化。我们避免使⽤掩码归⼀化,因为它会影响后来的计算的稳定性,因为它在数次归⼀化后产⽣的数值很⼩的提取特征。此外,在每个 SAConv 之后对掩码使⽤ maxpooling操作来跟踪可⻅性。如果卷积核⾄少有⼀个⾮零值可⻅,则最⼤池化会将位置处的值评估为 1。

图 11 叠层沙漏网络示意图

后面接了一个堆叠型沙漏结构,如上图,这个结构前面介绍过。第二阶段是深度回归。我们使用一个具有密集连接的叠层沙漏网络来回归深度。我们的叠层沙漏网络由3个级联编码器-解码器结构组成。与其他深度完成工程中多采用FCN型结构的单编码器解码器相比,具有逐级细化深度图的优点。叠层沙漏产生3级输出( S1、S2和S3 )。

这里进一步使用跳过连接和密集连接这些沙漏的每个对应层,并将回归深度反馈到每个后续阶段,以增强信息流。较细的深度在后期回归。在推理时,S3是最终的深度输出。

  • 损失函数

这里的损失函数是用均方差,真实深度与预测深度的均方差。

  • 预测补全结果

图片结果:

图 12 SCADC结果对比图

上图(左)立体匹配的定性结果( PSMNet),SSDC ( 直接激光雷达完成),以及SCADC关于KITTI深度完成验证集。这里展示了旁边的大型卡车和载重汽车的驾驶场景。车辆结构延伸到上层场景。SSDC不能回归上层结构。PSMNet的形状扭曲可以在亮点( a )自行车轮廓中看到。( b )桥梁结构渗入背景,造成不规则估计。(右)关于KITTI深度完成测试集的比较。其他作品的结果直接来源于KITTI网站。ADNN 显示上层为空,因为没有基本点。

视频结果

图 13 SCADC在KITTI数据集上的视频补全结果

  • 研究意义

该SCADC结合了立体匹配中场景完备性的优点,帮助激光雷达完成深度测量,获得了完整的场景和精确的深度图。通过APC,两种模式的信息融合得以成功地进行。用SCADC方法得到的深度图对于深度补全扩展到上层场景的实际场景具有良好的控制效果。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章