锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

MVM3Det翻译

时间:2023-02-26 16:00:01 3p2261接近传感器

MVM3Det: A Novel Method for Multi-view Monocular 3D Detection

摘要

单目三维目标检测在交通监控、行人监控等应用场景中遇到屏蔽问题,造成严重误报。多视角目标检测通过从不同角度组合数据有效解决了这一问题。
但由于
标签混淆和特征混淆,多视点三维目标检测的方向估计是一个难题,对目标跟踪和意图预测具有重要意义。本文提出了一种新的多视点三维目标检测方法MVM3Det,该方法根据多视点单目信息估计了目标的三维位置和方向。该方法由两部分组成:1)位置建议网络将不同角度的特征整合成一致的整体特征,以估计位置。2) 多分支方向估计网络,引入特征透视池,克服方向估计中的两个混淆问题。此外,我们还介绍了第一个用于多视图三维对象检测的数据集MVM3D 1。我们的数据集和公共数据集WildTrack上的最新(SOTA)与方法相比,我们的方法取得了非常有竞争力的结果。

引言

目标检测是自主机器人系统的基本任务,在感知系统中得到了蓬勃发展和广泛应用。然而,由于缺乏三维信息,二维目标检测很难为独立机器人的决策和规划提供足够的信息。因此,基于单目方法[1]、[2]、基于激光雷达的方法[3]、[4]、[5]、多传感器集成方法[6]、[7]、[8]等大量的三维目标检测方法已经开发出来。然而,这些方法只使用从单个角度获取的传感器数据,对象之间的相互屏蔽会导致严重的信息丢失。即使是传感器之间相对位置相近的多传感器融合方法,缓解视觉盲点的能力也是有限的。
由于目前的方法基本上是基于单个视图,因此屏蔽引起的假阴性已成为应用中的主要问题之一。
多视角三维目标检测是解决这一问题的可能解决方案之一。它整合了来自不同视角的信息,克服了单视角场景中屏蔽引起的检测失败,从而提供了稳定的结果和准确的态度估计。但从不同角度获取的传感器数据估计,统一的三维姿态是多视点目标检测的主要挑战,尤其是在缺乏深度信息的情况下。首先,由于每个视图的信息不同,如何有效地将多不可避免的问题是如何有效地将多视图信息整合到统一的全局信息中。其次,方向对轨迹跟踪和意图预测至关重要,但多视角信息下的方向估计有两个混淆问题:1)标签混淆和2)特征混淆。第一个问题是单目3D常见的检测问题。相对方向标签通常用于消除不同视角引起的标签模糊。然而,由于每个视图中的相对方向标签不同,很难在多视图检测中找到相同的相对方向标签。第二个问题是,由于多个摄像头的透视变化,具有相同方向和不同位置对象的整体特征。目前,为了实现准确的方向估计,很少有人致力于克服这一特征混淆。
制约多视点三维目标检测方法发展的另一个重要因素是缺乏数据集。目前单目3虽然有很多数据集[9]和[10]D但这些数据集仅限于从单个角度验证检测方法。Arnold等人[11]利用激光雷达在模拟环境中收集环岛数据,开发基于激光雷达的多视点3D目标检测方法,但不涉及多视点单目数据。WildTrack数据集[12]最接近多视图单目3D要求检测方法。然而,数据集不仅包含少量数据,而且没有对象的方向标签。因此,多视点单目三维目标检测方法的发展在很大程度上受到缺乏合适的数据集的限制。
本文提出了一种新的多视点单目三维目标检测方法MVM3Det,该方法可以同时估计位置和方向。该方法包括位置推荐网络,通过特征交叉投影和多分支方向实现一致性,通过特征透视池缓解特征混淆。
此外,我们还提出了多视点三维目标检测的数据集MVM3D,希望促进多视点三维目标检测方法的发展。本文的主要贡献如下。
1) 为了利用多视点信息来估计目标的唯一位置,我们提出了特征正交投影,并构建了位置建议网络。
该网络从多视图线索产生一致的全局特征。
2) 我们设计了具有特征透视池的多分支方向估计网络来估计每个透视对应的相对方向。该网络缓解了方向估计过程中的特征混淆问题。在此基础上,提出了一种多视点三维检测方法。值得一提的是,我们的方法是第一种利用多视点单目信息同时估计方向和位置的方法。
3) 我们提出了第一个多视图三维对象检测数据集MVM3D。我们的数据集和公共数据集WildTrack上的SOTA与方法相比,该方法取得了非常有竞争力的结果。
在MV3D在数据集中,我们的方法实现了95.9%的MODA,比SOTA方法提高了1.1%。我们的方法实现了49.0%的AP 3D,比单目的3D检测方法提高了9.7%。

相关工作

A单目检测
基于单目视觉的自主机器人三维检测方法有几种。由于图像中缺乏深度信息,通常需要复对象的三维姿势通常需要一些假设。例如,假设对象具有相同的高度[13]。许多自动驾驶场景都无法满足这一假设。因此,OFTNet[1]正交特征的变化在一定的高度范围内实现,削弱了以往的假设。此外,一些方法[14]、[15]、[16]放弃了高度假设。它们通过2使用D对象检测方法获得的2D边界框,并预测对象的大小和方向。
最后,通过解决透视N点问题来估计物体的空间位置。这些方法对目标尺寸和方向的预测精度非常敏感。另一种方法是基于单目深度估计[17]、[18]和[19]。该方法需要对深度估计网络进行预训练,然后结合二维检测帧估计目标的三维姿态。
B多目检测
基于单目视觉的方法解决了屏蔽引起的假阴性问题,特别是当物体拥挤时。在过去的两年里,一些基于多视角的方法被开发出来,通过从多个角度获取信息来克服屏蔽问题。Fleuret等人[20]提出了概率占用图法,利用多视图信息估计地平面占用概率。
Peng等人[21]构建了一个多视图网络,该网络将每个视图中的多个贝叶斯网络结合起来,并预测对象的定位。Baque等人[22]融合2D目标卷积神经网络和条件随机场对行人占用率进行联合估计。Hou等人[23]选择一种有效的无锚特征聚合方法,将行人占用率回归高斯分布。然而,这些方法只实现行人检测的位置估计,而不是目标的方向。本文提出了一种新的多视点三维目标检测方法,可以同时估计目标的位置和方向。

方法

本文提出了一种新的多视点三维目标检测方法。该方法利用多视点单目信息同时估计三维位置和方向,有效缓解遮挡造成的假阴性问题。该方法主要由网络和多分支方向估计网络两部分组成。建议网络从不同角度的数据中获得一致的整体特征,并使用基于锚的方法来估计对象的空间位置。多分支方向估计引入特征透视池,根据以往位置从不同角度实现方向估计,以缓解混淆问题。网络结构如图1所示。
A网络的位置估计
网络建议位置(PPN)目的是根据从不同角度获得的数据估计物体可能的三维空间位置。与传统区域建议网络(RPN)不同,PPN包括特征提取、特征融合和位置建议三个过程。在本文中,每个视图都使用单目
相机来监控对象。考虑到深度卷积网络在图像处理领域的重大突破,我们采用了深度卷积网络ResNet-18[24]作为图像各透视图的特征提取器,捕获深度特征。
由于从各个角度观察到的信息不同,直接集成在图像空间中ResNet获得的深层特征毫无意义。因此,特征融合的前提是在统一的特征空间中从不同的角度对齐特征。在这篇文章中,我们假设物体的高度近似分布在一个水平面上,然后引入特征正交变换,从不同角度投影到鸟瞰图(BEV)空间。类似于[1]、[23]和[25],当物体分布平面的高度已知时,我们计算从深度特征中提取每个像素BEV空间中的位置。
公式
这里Γ是3D位置,U是相机图像中像素的齐次坐标。K是相机矩阵。R和T是相机的旋转矩阵和平移向量。τ是比例因子,由
公式
V | z表示向量Vz轴值。z P是物体的高度。对于每个视图的每个深度特征,使用上述正交变换将图像特征转换为BEV空间。我们将投影特征与坐标映射叠加,并通过卷积网络BEV整合空间,从而获得一致的整体特征。
基于全局特征,我们引入了基于锚定位置估计的方法。与RPN类似地,为了预测对象在每个锚的相应位置的概率和对象中心相对于锚中心的偏移,输入了完全卷积网络。在训练过程中,与地面真实值相交(IoU)大于0.7预测边界盒作为样本,将IoU小于0.预测边界盒为负样本。在推理过程中,信心阈值和非最大值抑制(NMS)用于预测可能的位置。
B 深入估计多分支
方向估计是三维目标检测的重要组成部分。然而,使用多视图单目信息估计方向存在一些挑战。与单目3D目标检测方法相似,多视图方向估计也面临着相同的标签混淆问题。这个问题意味着当对象方向固定时,相机的不同视线使观察到的状态不同,导致相同的标签对应于不同的状态,如图2中的2、4和5所示。通常的解决方案是从视角重新定义标签,以消除这种歧义。当同一方向的对象位于同一视线中时,没有标签混淆,但由于正交投影的影响,以前一致的整体特征面临另一个混淆问题。这是由于高度假设,导致投影中心附近出现条纹。即使它们在同一视角上有相同的方向,这种条纹也会导致物体在不同位置的整体特征完全不同。这种现象被称为特征混淆,如图2中的1、2和3所示。
由于特征的正交换会导致特征混淆,整体特征不适合方向估计。在这里,我们提出了功能透视图池,它结合了每个透视图的功能和位置建议。首先,根据PPN每个视图图像中的3D位置对应的池区域。具体来说,根据对象的估计中心位置和预定义方向,获得边界框的8个顶点。
根据中每个顶点的位置根据相机的参数通过透视变换计算。我们通过计算8个投影顶点的最小外矩形来获得感兴趣的区域(ROI)。然后,使用ROI池获取特征
用于每个透视图下的方向预测。假设对象的高度和高度是已知的。
类似于[14],我们将值分为N个区间,而不是直接回到方向。每个分支网络预测ROI对象的置信度包含在区域[2πN(i)]内下降的概率内下降 1) ,2πni],i∈ {1,2,···,N},以及与区域中心值相比对象角度的偏移。培训期间,偏移量o i标签计算如下
公式
其中β这是方向的基本真实值。为了消除标签混淆,值是相对于视线的角度。由于多分支方法在每个透视图中预测对象的方向,每个对象可能有多个同方向的预测边界框。在推理过程中,我们首先根据置信度对框进行排序,然后应用NMS确定最终的预测结果。
C 多目3D检测
基于PPN和多分支方向估计网络,提出了一种多视点三维检测方法MVM3Det。该方法以多视角的单目图像为输入,通过共享ResNet-18提取特征,然后通过特征正交变换得到一致的全局特征,并应用基于锚的方法估计目标可能的空间位置。在置信阈值和NMS之后,将估计的位置与特征透视池相结合,以获得每个透视图中的ROI特征,并估计对象在每个透视图中的方向。最后,通过NMS得到边界盒。在训练过程中,考虑到方位估计网络是基于精确的位置估计的,我们采用了分阶段训练的方法:先训练PPN,然后训练多分支方位估计网络。
1) 职位建议书网络损失:PPN损失由两部分组成
公式1
其中,第一部分表示每个锚的预测置信度损失。p̂i∈ {0,1}和pi分别是基本真值标签和预测置信度。N conf表示锚的总数。第二部分表示BEV空间中锚的偏移损失,t̂BEV表示真实位置和锚之间的i偏移,t BEV i表示预测偏移。这里,只考虑涉及对象的锚的偏移损失。N val表示涉及对象的valide锚的数量。最后一部分是多分支回归损失,它表示不同视图v下图像空间中2D边界框的偏移损失。该框从BEV位置预测中投影。实验表明,该损失函数提高了位置估计的精度。对于f集的L形态和L,分别采用了软最大损耗和平滑L1损耗。我们按照[27]对t BEV和t vi进行编码。λP N i PPN和λ2D是平衡参数。
2) 多分支方向估计网络损失:对于多分支方向估计网络,我们预测三部分:1)目标存在的置信度,2)方向间隔分类概率和3)方向偏移。因此,损失函数也由三部分组成。
公式2
其中p vi表示第v个透视图中第i个预测边界框的真实标签。第二部分L cls是多箱分类损失,计算一个热标签和预测概率分布之间的分布距离。此处softmax损耗用于此损耗。b i表示第i个框在方向间隔上的概率分布,o i表示方向和间隔中心之间的偏移量v。N conf是视图v中预测边界框的总数。N val是验证框的数量。考虑到方向的周期性,我们使用余弦函数将偏移预测误差编码为偏移预测损失L ori,这与[14]相同

实验

为了验证所提出的多视点三维检测方法的性能,我们提出了一种多视点单目视觉系统ULA 3D对象数据集,并在该数据集上进行烧蚀实验。此外,我们还比较了在所提出的数据集和公共数据集上,位置检测和方向估计与现有SOTA方法的性能。
A多目3D检测数据集
虽然多视点三维目标检测在自主机器人系统中非常重要,但由于缺乏相关的数据集,目前相关的算法还很少。自主驾驶有丰富的3D检测数据集,如KITTI、Waymo open dataset等,其中包含大量的图像、点云和3D边界框。然而,数据是从单一角度收集的,仍然存在遮挡问题。WildTrack数据集与我们建议的数据集最为相似,但它仅包含400个样本,并且不提供对象的方向标签。因此,无法验证这些方法的方向估计性能。我们提出的数据集包含从多个角度收集的4330对单目图像和大量边界框,包括位置和方向。
数据集的收集在8m×4.5m的场地内完成。一对单目摄像机斜着安装在现场,用于拍摄现场图像。现场存在不同高度的障碍物和移动物体。在MVM3D数据集中,要检测的对象是移动机器人。标签在数据集中的方向分布对于方向估计非常重要。我们尽最大努力确保样本数量在每个角度间隔内均匀分布。可以找到有关数据集的更多信息https://github.com/DRL-CASIA/MVM3D.
B评估指标
遵循[23]、[22]等定位方法,我们选择多目标检测精度(MODA)和多目标检测精度(MODP)、召回率、精度作为目标定位的评估指标[30]。
选择平均方向相似性(AOS)、平均3D检测精度(AP 3D)[31]和方向分数(OS)[14]进行方向估计。
C实施细节
在实验中,采用随机亮度、随机对比度和随机饱和度进行图像增强。
与[23]类似,ResNet-18被用作主干网。BEV空间中的特征被插值为固定大小[120160]。在训练PPN期间,0.7和0.3是IoU阈值,用于选择阳性样本和阴性样本。λpn是3,λP是1。
2D在训练多分支方向估计网络时,我们从PPN中选取IoU大于0.5的128个样本来训练网络。λM BON为0.4。我们使用Adam优化器,学习率为0.15×10−5来训练15个时代的网络,batchsize设置为1。
D局部表现
1) 在WildTrack数据集上的结果:在WildTrack数据集上,我们将提出的方法与当前的SOTA方法进行了比较,结果如表1所示。结果表明,MVDet是目前最好的定位方法。
与之相比,该方法在MODP中的性能略优于MVDet,其他指标的结果也比较接近。与无锚方法MVDet相比,MVM3Det的位置估计是一种基于锚的方法。由于锚的局限性,在目标密集的情况下,该方法的召回率低于无锚方法,因此MODA也较低。与其他方法相比,该方法在定位性能上具有明显的优势。
2) MVM3D数据集的结果:与WildTrack数据集相比,MVM3D数据集更大,光照变化更丰富。此外,由于障碍物的存在,遮挡情况更加复杂。应该注意的是,尽管MVM3D数据集比WildTrack数据集大,但每个帧中的对象密度都小于WildTrack。这也是MVM3Det在此数据集上具有高召回率的原因。与MVDet相比,基于锚定的方法MVM3Det具有更好的精度和更高的MODA,如表II所示。MVM3D数据集上结果的可视化如图3所示。从图中的结果可以看出,我们提出的方法可以准确估计目标的位置和方向,即使它被障碍物严重阻挡。
E 局部消融研究
我们在MVM3D上对所提出的方法进行了多次烧蚀实验,以分析定位性能。
结果见表三。
1) 基本单目模型:最简单的基线模型是通过特征将原始图像投影到BEV空间然后利用ResNet-18作为特征提取工具,预测物体在BEV空间中的位置。
结果如表III第1行所示。
2) 特征正交变换(FOT):基于第1行的模型修改第2行的基线模型。具体来说,该模型应用ResNet-18在图像空间中提取特征,然后利用特征正交变换在BEV空间中获取特征并预测目标的空间位置。与第1行中的结果相比,值得注意的是,预训练的ResNet-18模型在原始图像空间中具有更好的性能。
3) 多视图图像融合:基于第一个基线模型,第三行中的模型添加来自多个视角的输入。将从多个透视投影到BEV空间的图像堆叠起来,作为ResNet-18的输入。
与第1行中的结果相比,可以看出多视图信息在一定程度上提高了定位性能。
4) 多视角特征融合:第四行模型基于第三行模型,利用ResNet-18从原始视角提取深层特征,然后利用特征正交变换在BEV空间中获取特征。该模型采用前两部分PPN损失进行训练。第2行和第4行的结果表明,多视图下的特征融合大大降低了误报率,提高了方法的性能。
5) 多分支回归(MBR):最后一行是本文提出的多视图3D对象检测方法,它增加了多分支2D边界框回归损失。与第4行和第5行的结果相比,可以看出,联合BEV空间损失和多分支回归损失在一定程度上提高了位置估计精度。

结论

据我们所知,目前还没有利用多视点单目信息实现方位估计的方法。然而,定向对于单目3D检测是必要的。这里比较的基线模型是基于我们提出的方法的退化模型,它只使用单视图信息。从表IV的结果可以看出,多视图融合大大提高了方向估计的精度。
结论
本文提出了一种新的多视点单目三维目标检测方法,该方法克服了多视点下由于遮挡和方向估计混乱造成的误报问题。该方法主要由PPN和多分支方向估计网络组成。PPN通过特征正交变换融合不同角度的数据,估计目标的空间位置。多分支方向估计引入特征透视池,从多个角度实现方向估计,以缓解方向估计中标签混淆和特征混淆的问题。此外,为了促进多视点三维目标检测的发展,我们提出了第一个多视点单目三维数据集MVM3D,涵盖了不同的照明和复杂的遮挡场景。通过在我们的数据集和公共数据集上的实验,该方法在位置估计方面取得了与现有SOTA相当的结果,并首次实现了方向估计。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章