锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

PETRv2:一个多摄像头图像3D感知的统一框架

时间:2022-09-21 04:30:01 各种常见的离散传感器

点击上方“3D视觉车间,选择星标

第一时间送达干货

00607c8cd4e9d3c0d21236d0545b33a4.jpeg

作者丨黄浴

来源:计算机视觉深度学习和自动驾驶

arXiv6月10日上传的论文PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images,是旷视科技孙剑团队的工作(也是孙博士去世前的项目报告,仅作为纪念)。

基于PETR,PETRv2探索时域建模的有效性,利用前一帧的时间信息增强3D目标测试。更具体地说,将PETR中的3D位置嵌入(3D PE)扩展到时域建模D PE实现不同帧目标位置的时间对齐。

为了提高3D PE数据适应性,进一步引入位置编码器的特征引导。支持高质量的BEV分割,PETRv加一组分割query,它提供了一个简单有效的解决方案。每个分割query负责分割BEV地图的图patch。

PETRv2在3D目标检测和BEV最先进的性能先进的性能。代码位于https://github.com/megvii-research/PETR。


近年来,基于多摄像机图像的自动驾驶系统3D感知技术受到广泛关注。多摄像机3D目标检测方法可分为基础BEV方法和基础DETR的方法。基于BEV(例如,BEVDet)通过LSS将多视图特征显式转换为鸟瞰图(BEV)表示。与这些基于BEV基于DETR每3种方法D以目标建模为目标query,并采用匈牙利算法实现端到端建模。

PETR(“Petr: Position embedding transformation for multi-view 3d object detection“. arXiv 2203.05625, 2022)是DETR其工作是多视图3D目标检测位置嵌入变换(PETR)。PETR将3D坐标的位置信息编码为图像特征,生成3D位置-感知特征。目标query可以感知3D位置-感知特征并执行端到端目标检测。

如图是PETR架构图:将多视图图像输入主干网络(如ResNet),提取多视图2D图像特征。在3D在坐标生成器中,所有视图共享标生成器中(frustum)空间分散为3D网格。将不同摄像头参数的网格坐标转换为3D世界空间坐标。然后将2D图像特征和3D坐标注入到3D在位置编码器中生成3D位置-感知特征。query生成器的目标query通过与transformer解码器中的3D位置-感知特征交互更新。更新后的query进一步用于预测3D边框和目标类。

这个3D位置编码器架构如图所示,多视图2D输入图像特征1×1卷积层降维。3.通过多层感知D坐标生成器生成的3D坐标转换为3D位置嵌入。3D嵌入位置的形状与2D相同的图像特征。3D嵌入与同一视图相同的置D图像特征加在一起生成3D位置-觉察特征。最后,将3D位置-感知特征扁平化transformer输入解码器。

时域建模的主要问题是如何D不同帧的目标位置在空间中对齐。BEVDet4D前一帧是通过姿态变化改变的BEV特征与当前帧明确对齐。PETR将3D位置隐式编码为2D图像特征,显式特征转换不能执行。PETR已经证明了3D PE在3D感知的有效性,那么3D PE时间对齐还适用吗?

在PETR在中间,摄像头截锥空间的网格点(共享不同视图)通过摄像头参数转换为3D坐标。然后3D将坐标输入简单的多层感知(MLP)生成3D PE。在实践中,我们发现前一帧的3是简单的D坐标与当前帧对齐,PETR在时域条件下工作良好。

对于BEV联合学习分割,BEVFormer将提供统一的解决方案BEV地图上的每个点定义为一个点BEV query。因此,BEV query可用于3D目标检测和BEV分割。然而,当BEV地图的分辨率相对较大(例如 256×256)时,BEV query数量(例如 >60000)往往会很大。由于transformer解码器采用全局关注机制,所以这个目标query定义显然不合适PETR。

如图所示,PETRv基于2的整体结构PETR的基础上,并通过时域建模和BEV扩展分割:2D图像特征是通过2D主干(例如ResNet-50)从多视图图像中提取,3D坐标是由摄像头截锥空间生成的,如PETR一样。考虑到自动运动,前一帧t-1的3D首先,坐标将通过姿态变换转换为当前帧t的坐标系。然后,相邻帧的2D特征和3D坐标串联在一起,输入到特征引导位置的编码器(FPE)。然后,使用FPE为transformer解码器生成key和value组件。另外,从可学的3D锚点和固定BEV点,初始化检测query(det query)和分割query(seg query),并馈送到transformer解码器中,与多视图图像特征交互。最后,更新后的query输入检测头和分割头进行最终预测。

时间对齐是转换帧t-从帧t的三维坐标到坐标系。为了清晰起见,首先标记一些坐标系:相机坐标c(t),激光雷达坐标l(t),车辆坐标e(t);另外,全局坐标是g。将T定义为从源坐标系到目标坐标系的转换矩阵。用l(t)作为默认的3D生成多视图摄像头3的空间D位置-感知特征。3投影于第一个摄像头D点P-l-i(t)可以说:

给定辅助帧t? 1,从帧t-1到帧t对齐3D点坐标:

有全球坐标空间作为帧t-1换T易于计算与帧T之间的桥梁:

PETR将3D坐标转换为3D位置嵌入(3D PE),其生成可表示为:

PETR中的3D PE与输入图像无关D PE应该由2D特征驱动,因为图像特征可以提供一些信息指导(如深度)。作者使用特征指导的位置编码器,隐含地引入视觉先验。该特征指南3D嵌入位置的生成可以表示为:

接着,将经1×1卷积投影的2D图像特征反馈给一个小的MLP网络ξ和Sigmoid注意权重在函数中获得。3D另一个坐标MLP网络ψ转换与注意权重相乘,产生3D PE。3D PE添加2D特征,获取transformer解码器的key组件。投影的2D特征用作transformer解码器的value组件。

下面为PETR配备seg query,支持高质量BEV分割。高分辨率BEV地图可以划分为少量patch。对于用于BEV分割的seg query,每个seg query对应一个特定的patch(例如,BEV地图的左上16×16像素)。

如上图所示,seg query使用BEV空间中的固定锚点初始化,类似于PETR中生成检测query(det query)。然后,通过简单的两个线性层MLP投影这些锚点seg query中。然后,seg query被输入到transformer与图像特征交互的解码器。对于transformer解码器使用与检测任务相同的框架。

然后,更新后的seg query最后输入分割头(一个简单的MLP网络,后跟一个Sigmoid预测层)BEV嵌入。每个BEV嵌入被重塑成一个BEV patch(形状为16×16)。所有BEV patch将空间维度连接在一起,产生分割结果(形状为256×256)。对于分交叉熵损失预测分支的预测BEV监督训练地图:

LSS它显示了外部噪声和相机在测试过程中脱落的性能。BEVFormer它证明了模型变化对摄像头外部特性的鲁棒性。在实践中,存在各种传感器错误和系统偏差。验证这些情况的影响非常重要。

如图所示,重点关注以下三种常见类型的传感器错误:

  • 外部噪声:外部噪声在现实中很常见,例如汽车碰撞引起的摄像头抖动或环境外力引起的摄像头偏移。在这些情况下,系统提供的外部信息不准确,感知输出将受到影响。

  • 摄像头丢失:当摄像头出现故障或堵塞时,摄像头图像丢失。多视觉图像提供全景视觉信息,但在现实世界中可能缺少一个。为了提前制定传感器冗余策略,有必要评估这些图像的重要性。

  • 摄像头延迟:由于摄像头曝光时间,延迟也是一个挑战,尤其是在晚上。长曝光时间导致系统接收前一次的图像,导致显著的输出偏移。


为了模拟外部噪声并评估效果,选择对摄像头外参矩阵随机应用3D旋转。忽略其它噪声模式,如平移,以避免多变量干扰。具体来说,从多个摄影头中随机选择一个来应用3D旋转。将α、β、γ分别表示为边缘X、Y、Z研究几种最大振幅的轴角 αmax、βmax、γmax的旋转设置∈{2, 4, 6, 8},其中αmax = 2表示 α 从[?2、2]均匀取值。在实验中使用Rmax = M表示 αmax = βmax = γmax = M。

实验结果如下:

当某些视角图像丢失时nuScene的性能变化

本文仅进行学术分享。如有侵权行为,请联系删除。

3D视觉车间精品课程官网:3dcver.com

1.面向自动驾驶领域多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章