锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

自动驾驶感知多任务学习网络方法盘点!(检测/分割/车道线/关键点/深度估计)...

时间:2022-10-29 17:00:00 传感器重复性的正负l6传感器

点击上方“3D视觉车间,选择星标

第一时间送达干货

69ad52dda3911895cbdf0744776013e6.jpeg

作者,汽车人

来源丨自动驾驶的心

多任务学习是自动驾驶领域一个非常重要的模块,旨在通过网络实现分割、测试、关键点、车道线等多个任务,除了节省计算的优势外,多任务还具有一定的辅助作用,如分割任务将帮助测试任务提高整体性能,梳理自动驾驶领域常用的多任务学习网络;

1. Mask RCNN

Mask RCNN是何凯明于CVPR在2017年发布的工作中,我们率先提出了割为一体的端到端网络,可扩展为目标实例分割和目标关键点检测任务。Mask-RCNN 是基于Faster-RCNN 在基本特征网络之后,增加了一个完全连接的分割网络,由原来的两个任务(分类 回归)变成三个任务(分类) 回归 分割/关键点)。

RPN网络使用backbone提取的feature map输出作为网络的输入和输出proposals类别(前景or背景)和坐标位置。早期在Faster-RCNN中使用RoIPooling做特征提取,但这种方法有两个量化操作,对于目标检测任务bounding box坐标位置影响较小,但对分割任务影响较大。为此,Mask RCNN中采用RoIAlign用于从所有RoI提取相同大小的feature map,对后续进行分类分割。论文将Mask RCNN结构扩展成检测 实例分割与检测 关键点检测任务采用实例分割任务FCN全卷积结构,预测相应类别mask。重点检测任务将是keypoint位置信息建模为one-hot mask,并预测K个Mask,对应K个关键点类型(如眼睛、鼻子等)。Mask RCNN如下图所示:

Mask RCNN与下图相比,人体关键点检测的性能如下图所示mask任务,keypoint任务对bbox抑制性能,mask keypoint联合训练任务基本能保持三种性能;

2. Cascade Mask RCNN

Cascade Mask RCNN不断优化预测结果网络不断优化预测结果。不同于普通的级联检测器,Cascade R-CNN基于不同的多个检测网络IOU然后确定不同的正负样本进行训练COCO数据集上Cascade R-CNN在目前的目标测试比赛中取得了非常出色的成绩和强大的成绩Trick。简单来说,Cascade R-CNN它是由一系列检测器组成的级联检测模型,每个检测器都是基于不同的IOU通过阈值的正负样本训练,前一个检测器的输出作为后一个检测器的输入,并且越往后走,检测器的阈值就越大,论文指出,很难指定一个IOU训练集上训练获得的检测模型是阈值定义的IOU跨度大的输入候选框是最好的,所以级联可以让每个阶段的检测器专注于检测IOU因输出而在一定范围内的候选框IOU一般大于输入IOU,因此,检测效果会越来越好,Cascade RCNN结构如下图所示,下一个检测模型的边界框,迭代回归:

论文指出(d)优于中方案(b)和(c);

无论是在检测还是实例分割任务中,级联方案都能获得较大的利润,论文验证了不同主干和任务的不同COCO如下图所示:

3.Mask Scoring RCNN

Mask Scoring R-CNN主要用于学习预测实例mask论文提出了一种新的实例分割假设评分方法,因为大多数评价指标都是根据假设得分来定义的,更准确的得分有助于更好地表达模型的性能。大多数实例分割方法使用分类信度来测量mask质量不合适,因为它只区分proposals不知道实例的语义类别mask实际质量和完整性。分类置信度和mask质量偏差如下图所示,实例分割假设准确box-level定位结果和较高的分类分值,但对应的mask不准确。显然,使用这种分类分数对mask进行评分会降低评价结果的质量。

Mask Scoring R-CNN实例分割AP测量的灵感,测量的预测mask与其真实mask像素级之间(IoU)描述实例分割的质量。论文提出了直接学习IoU一旦测试阶段预测了网络MaskIoU,可以预测MaskIoU与分类得分相乘来重新评估mask得分。MaskIOU Head分支如下图所示,Mask Head输出特征和ROIAlign特征进行Concat,然后通过卷积和全连接层进行预测。

COCO根据2017年测试集的实验,Mask Score RCNN相比于Mask RCNN在AP提高指标近1%;

4. OmniDet

OmniDet是ICRA2021上的一篇paper,主要讨论环视鱼眼镜头的多任务视觉感知系统,集深度估计、视觉里程计、语义和运动分割、目标检测和镜头污染检测于一体。环视鱼眼相机通常部署在自动驾驶车辆上,以感知车辆周围的360°信息,论文在未校正的鱼眼相机上实现了多任务视觉感知网络,使车辆感知周围环境信息,提出了基于相机几何自适应机制的鱼眼畸变模型,证明联合训练模型优于相应的单任务模型,如下图所示:

针对无监督深度估计和视觉里程计任务,论文基于FisheyeDistanceNet,loss主要包括重建项、强制边缘平滑、序列间距一致的正则项。在此基础上,论文引入了特征测量loss。对于目标检测任务,由于严重的径向畸变,特别是在外围,标准box表示已经失效。该网络采用24边多边形表示来完成目标检测。论文基于YOLO3.用于鱼眼目标检测polygon表示,称之为PolyYOLO。在分割任务的基础上,论文采用义和运动分割Lovasz-Softmax loss和Focal loss。论文基于污染检测任务SoilingNet,同时采用asynchronous backpropagation与原始模型相比,训练从输出tilted output变成了pixel level segmentation。论文在KITTI该领域的主流模型和数据集OmniDet一起做了验证实验,如下图所示,在深度估计和pose估计上OmniDet优势明显:

5. MultiTask-CenterNet

MultiTask-CenterNet提出了用一个网络同时完成目标检测、语义分割和人体姿态估计三个基本任务。论文增强了anchor-free的CenterNet该方法训练了许多与感知相关的不同任务,包括目标检测、语义分割和人体姿势估计。此外,作者还研究了不同的研究MCN(MultiTask-CenterNet)设定效率,MCN在某些情况下,多个任务可以同时执行,甚至超过其相应的单个任务网络的性能。更重要的是,与单个任务网络的组成相比,MCN网络结构如下图所示:

在目标检测和人体姿势估计任务中,MCN架构使用CenterNet作为Anchor Free对于检测算法,语义分割采用全卷积法。MCN独立于目标检测任务进行人体重点检测,重点学习通过回归其偏移量来完成。此外,论文还扩展了语义分割MCN在语义分割架构中,模型对图像进行了像素分类。
COCO试验集上的验证效果如下图所示,Seg Det方案的分割指标略低于分割指标Seg only网络,检测指标基本对齐;Seg Det Pose方案相比于Det Pose方案基本保持在检测和关键任务上,分割指标也与纯分割网络对齐。图19显示了多任务和单任务模型的推理速度和参数。虽然多任务网络在精度上没有很大的优势,但在速度和参数上于多个单任务模型。

6. YOLOP

YOLOP华中科技大学团队提出,可同时进行三项任务:交通目标检测、可驾驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。模型在BDD100K在准确性和速度方面,数据集表现非常好,所有三项任务都达到了SOTA。为获得高精度、快速的速度,YOLOP使用轻量级 CNN 从图像中提取特征作为编码器,然后将这些特征送到三个解码器来完成各自的任务。检测任务的解码器是基于当前性能最好的单级检测结构,主要是因为单级检测网络比两级检测网络快;基于网格的单级检测器的预测机制与其他两个语义分割任务有关,而实例分割通常与基于区域的检测器相结合。编码器输出的特征图集成了不同层次和规模的语义特征,分支可以利用这些特征图完成像素级语义预测,YOLOP如下图所示:

论文选择CSPDarknet解决了优化时梯度重复的问题;Neck部分由SPP模块和FPN模块组成。具体的解码器主要包括三个任务。解码器和检测任务YOLOv4类似的论文是基于anchor采用多尺度检测方案PAN在多尺度融合特征图上检测结构,以获得更好的特征融合效果。可行区域分割和车道线分割采用相同的网络结构,论文将 FPN 的底层特征送入分割分支,大小为 (W/8, H/8,256)。分支相对简单,输出特征图通过三个上采样过程恢复到(W, H, 2)大小代表了输入图像中每个像素对可行区/车道线和背景的概率。采样层采用最相邻的插值法降低计算成本,分割解码器不仅获得了高精度的输出,而且在推理过程中也非常快。论文在BDD100k对于检测任务,三项基本任务的性能得到了充分的验证Multinet和DLT-Net作者只测车辆,作者只考虑BDD100K数据集上5个模型的车辆检测结果。如下表所示,使用 Recall 和 mAP50 作为检测精度的评价指标。模型的检测精度超过了 Faster RCNN、MultiNet 和 DLT-Net,且可以与YOLOv5s 相媲美。

可行驶区域分割任务中,BDD100K数据集中被不加区分地归类为“可行驶区域”,模型只需要区分图像中的可行驶区域和背景。mIoU用于评估不同模型的分割性能,结果下图所示:

BDD100K数据集中的车道线标记为两条线,因此直接使用标定真值非常困难。为了方便比较,论文根据双线注释计算中心线,然后绘制训练的车道线,宽度设置为8像素,同时将测试集的车道线宽度保持为2像素。使用像素精度和车道IoU作为评估指标,指标对比如下图所示:

下图显示了单任务和多任务方案在每个特定任务上的性能对比。可以看出,YOLOP采用了多任务方案性能接近专注于单个任务的性能,更重要的是,与单独执行每个任务相比,多任务模型可以节省大量时间。

7. YOLO-Pose

YOLO-Pose主要基于YOLO目标检测框架完成2D多人姿态估计, 论文中的模型学习联合检测多人的box信息及其相应的2D姿态,从而实现自上而下和自下而上方法的最佳结合。YOLO-pose在COCO测试集上取得了最新成果,达到SOTA,无需翻转、多尺度或任何其它增加测试时间的方法来提升性能。YOLO-pose网络结构如图34所示,整体基YOLOv5结构,backbone采用CSPDarknet主干,Neck部分采用PANet,接下来是四个不同比例的探测头,两个解耦的头部用于预测框和关键点。对于检测任务,特征图上每个grid对应三个anchor,COCO数据集上类别+定位+置信度预测为85个元素;对于关键点任务,采样和检测任务对齐,人体具有17个关键点,预测对应坐标和置信度,每个anchor预测为51个元素;

论文在COCO开源数据集上进行了验证,在关键点指标上,YOLO-pose和主流bottom-up方法进行了对比。图35展示了与其它基于HigherHRNet和EfficientHRNet的SOTA方法进行了比较,与SOTA DEKR模型相比,YOLOv5-m6-pose的AP50更高,而DEKR复杂度是其4倍,YOLOv5-l6-pose比任何其他自下而上的姿势都能获得更好的AP50,DEKR复杂度是其2倍。COCO数据集上的这些结果表明,YOLO是现有基于HigherNet的自下而上方法的有力替代品 :

该篇论文整体来说工程意义较大;

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章