锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

MUTR3D：通过3D到2D查询的多相机跟踪框架

时间：2022-08-13 20:30:02 abs轮速传感器固定结构 3d影像传感器

点击上方“3D视觉车间，选择星标

第一时间送达干货

作者口香糖泡椒味

来源丨GiantPandaCV

0. 引言

3D跟踪在自动驾驶、机器人、虚拟现实等感知系统中非常重要，其具体任务包括预测每帧对象，并及时找到它们之间的相应关系。当系统使用多相机3时D跟踪时，会出现检测精度降低、复杂场景中的遮挡和模糊、边界对象丢失等问题。在2022 CVPR论文"MUTR3D:通过3D到2D查询的多相机跟踪框架"作者提出了端到端多相机多对象跟踪算法MUTR3D，该算法适用于已知参数的任何相机。算法开源很重要。

1. 论文信息

标题：MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries

作者：Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao

来源：2022 Computer Vision and Pattern Recognition (CVPR)

原文链接：https://arxiv.org/abs/2205.00613

代码链接：https://github.com/a1600012888/MUTR3D

2. 摘要

多个相机的精度和一致性为3D跟踪是基于视觉的自动驾驶系统的关键组成部分。它涉及在复杂场景中跨多个相机建模3D动态对象。由于深度估计、视觉屏蔽、外观模糊等，这个问题本身就具有挑战性。此外，对象并不总是与时间和时代有关。为了解决这个问题，我们提出了一个名字MUTR3D端到端多相机跟踪框架。

与以前的工作相比，MUTR3D不清楚取决于对象的空间和外观相似性。相反，我们的方法介绍3D轨迹查询是指出现在多个相机和帧中的每个对象的建模空间和外观连贯轨迹。我们使用相机转换3D跟踪器和它们在2D图像中的观察结果是相连的。根据相机图像获得的特性，进一步细化了每个跟踪器。

MUTR3D使用集合到集合的损失来度量预测的跟踪结果和地面事实之间的差异。因此，它不需要任何后处理，例如非最大值抑制和/或边界框关联。在nuScenes数据集上，MUTR3D性能优于最先进的方法5.3 AMOTA。

3. 算法分析

如图1所示，作者提出的在线多相机多对象跟踪框架MUTR3D以端到端的方式使用空间和外观相似性将对象关联到3D轨迹。更具体地说，MUTR3D引入了3D轨迹查询，直接模拟随时间和跨相机的对象轨迹3D状态和外观特征。

在每一帧，3D轨迹查询来自所有可见相机的样本特征，并学习创建/跟踪/结束轨迹。与以往算法不同的是，MUTR3D在统一的端到端框架中同时进行检测和跟踪。

图1 MUTR3D示意图

作者的贡献主要有三个方面：

(1) MUTR3D第一个完全端到端的多相机3D跟踪框架。检测跟踪方法不同于现有的显式跟踪试探方法，MUTR3D模拟目标轨迹的位置和外观变化。MUTR3D消除非最大值抑制、边界框关联和对象重新识别等常用的后处理步骤(Re-ID)，简化了3D跟踪流程。

(2) MUTR3D引入一个3D轨迹查询可以模拟一个对象的整个轨迹3D状态。3D轨迹查询从所有可见的相机采样特征中逐帧更新逐帧更新轨迹。

(3) 在NuScenes仅视觉3D实现了跟踪数据集SOTA性能。

(4) 提出了两个测量来评估当前的3D跟踪器中的运动模型：平均跟踪速度误差(ATVE)跟踪速度误差(TVE)。可以测量被跟踪物体的估计运动误差。

3.1 基于查询的目标跟踪

MUTR3D采用基于查询的跟踪，在每帧开始初始化一组新的查询，然后以自回归的方式逐帧更新自己。解码器从每帧中的每个轨迹查询中预测一个候选人，同一轨迹查询的不同帧中解码的预测直接相关。通过适当的查询生命周期管理，联合检测和跟踪可以在线进行。

如图2所示，作者使用的跟踪器有三个关键部件：

(1) 基于查询对象的跟踪损失分为两种不同类型的查询(新生查询和旧查询)。

(2) 多相机稀疏注意使用3D每个查询采样图像特征的参考点。

(3) 运动模型估计对象动态并跨帧更新查询的参考点。跟踪查询伴随着多相机的特性，在当前帧中的候选人中解码，然后过滤掉不活跃的查询，更新主动查询的参考点来补偿物体运动和自身运动。最后，更新的查询转移到后续帧跟踪相同的对象。

图2 在线多相机跟踪器的流程概述

黑色虚线框中所有彩色小方块代表跟踪查询，蓝色框代表新生查询。橙色框表示旧的查询来自以前的帧

3.2 跟踪端到端目标的损失

MUTR3D每帧查询有两种类型的算法，并且有不同的标签分配策略。新生查询(newborn query)它们与输入无关，并在每帧开始时添加到查询队列中。新生查询负责在当前帧中检测新出现的物体，并使用新出现的地面真实对象作为DETR，匹配新生查询的候选人。旧查询(old query)活跃查询来自成功检测或跟踪对象的前帧。在第一次成功检测到地面真实对象后，旧查询负责跟踪当前帧中以前出现的对象。

3.3 多相机跟踪查询解码

MUTR3D算法的transformer解码器负责跟踪查询，关注其多相机图像特征，提取的查询特征将用于解码候选人。解码器有两个注意模块：查询中的自注和查询以及图像特征中的交叉注意。为了提高效率，作者采用了它DETR3D交叉注意力基于参考点的注意力。在具体实施方面，包括查询初始化、提取查询特征和3D对象参数化三个步骤。

3.4 查询生命周期管理

为了在线处理消失的对象，MUTR3D每帧后删除不活跃的查询。具体来说，将每个查询的可信度分数定义为预测框的分类分数，并使用两个阈值参数作为方框分数和一个时间长度T来控制查询的生命周期。

在算法执行过程中，如果每帧中的新查询分数低于，则删除每帧中的新查询。对于旧的查询，如果它们的分数低于连续

3.5 查询更新和运动模型

过滤掉无效查询后，MUTR3D跟踪查询将更新，包括它们的特性和3D参考点。更新三维参考点的目的是模拟物体的动力学，补偿自己的运动。同时，作者使用查询中预测的速度，其优点是可以通过帧更新，并聚合多帧特征。

同时，为了隐式建模多帧外观变化，MUTR3D以前帧的特性用于更新跟踪查询。MOTR类似地，作者为每个活动保持一个固定大小的先进先出队列，并命名为内存库。每帧后，为每个查询及其内存应用一个注意模块。跟踪查询作为注意模块，相应的内存作为一组键和值。

4. 实验

4.1 对比实验

作者使用nuScenes用平均多目标跟踪精度对数据集进行算法评估AMOTA和AMOTP作为主要指标1所示。SOTA比较方法，MUTR3D方法在相机跟踪器上的性能远远超过了当前的SOTA方法QD3DT方法5.在测试集中超过5分.3个点。

表1 nuScenes数据集上与SOTA方法的比较

如表2所示，作者与两条卡尔曼滤波基线的对比优于基本版本的卡尔曼滤波器。SimpleTrack作者提出的基线方法是AMOTA、MOTA、MOTP等指标只略有提高。

表2 在nuScenes与卡尔曼滤波器的对比

作者提出了两个评价标准来评估不同跟踪算法的运动模型ATVE (Average Tracking Velocity Error) 和TVE (Tracking Velocity Error)。其中TVE是在MOTA召回时平均速度误差最高，ATVE计算公式如下：

如表3所示，是运动模型的评价结果。与基于运动模型的卡尔曼滤波器相比，作者的方法更好TVE。与以前的相比SOTA相机跟踪器QD3DT，作者提出的方法速度评估更准确。

表3 速度评估结果

4.2 消融实验

作者在消融实验中研究了两个因素。首先，作者研究不使用运动模型的影响，即在每帧结束时不更新3D参考点。实验结果如表4所示，结果表明移除运动模型会降低所有指标的性能。

表4 运动模型消融实验结果

然后，作者研究了训练帧数的影响。采用所有实验ResNet-50作为主要网络，如表5所示，分别使用3、4、5帧进行训练，结果表明，训练帧数的提高会逐渐提高性能。

表5 训练帧数消融实验结果

4.3 定性实验

在传统算法中，汽车左右两侧的近距离物体通常被几个相机切断，这是多相机3D跟踪是一个巨大的挑战。如图3所示，8秒剪辑BEV以及相机视图中跟踪算法的可视化结果，从上到下画出四个视图：鸟瞰图、前相机、左前相机和左后相机。相同的颜色代表相同类别的对象。箭头表示估计速度，箭头越长，速度越大。结果显示，MUTR3D该算法可用于自动集成多相机特性，并正确处理截断。

图3 在FPS8个连续帧1的可视化结果

5. 结论

在2022 CVPR论文"MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries"中，作者设计了一个端到端多相机3D MOT框架。该框架可以执行3D检测，补偿自身运动和对象运动，并执行端到端的跨帧和跨帧对象关联。在nuScenes测试数据集中，MUTR3D跟踪器比目前最先进的基于相机的3D跟踪器QD3DT高出5.3 AMOTA和4.7 MOTA。作者还提出了两个新的评估指标：平均跟踪速度误差(ATVE)和跟踪速度误差(TVE)，来研究当前3D 跟踪器中运动模型的质量。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！