锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

85.4% mIOU!NVIDIA:使用多尺度注意力进行语义分割,代码已开源!

时间:2023-09-06 05:07:02 oy054s传感器

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

下载论文PDF和源代码:

链接:https://pan.baidu.com/s/17oy5JBnmDDOtKasfPrWNiQ 提取码:lk5z

导读

来自NVIDIA的SOTA文章的语义分割,代码开源。

503574cef995aac24bc298a23c18d62e.png

论文:https://arxiv.org/abs/2005.10821

代码链接:

https://github.com/NVIDIA/semanic-segmentation

有一项重要的技术,通常用于自动驾驶、医学成像,甚至缩放虚拟背景:语义分割。这标记了图像中的像素N类中的一个(N是任何数量的类别)的过程,可以是汽车、道路、人或树。就医学图像而言,类别对应于不同的器官或解剖结构。

NVIDIA Research我们正在研究语义分割,因为它是一种广泛应用的技术。我们还认为,改进语义分割的技术也可能有助于改进许多其他密集的预测任务,如光流预测(预测物体的运动)、图像超分辨率等。

在两个共同基准中,我们开发了一种新的语义分割方法:Cityscapes和Mapillary Vistas上达到了SOTA的结果。IOU是描述语义分割预测精度的交并比。

在Cityscapes该方法在测试集中达到85.4 IOU,与其他方法相比,考虑到这些分数之间的接近程度是一个相当大的进步。

在Mapillary在验证集中使用单个模型达到61.1 IOU,与其他使用模型集成相比,最佳结果是58.7。

结果预测


研究过程

为了开发这种新方法,我们考虑了需要改进图像的特定区域。图2显示了两种最大的失败模式:细节错误和类别混淆。

图2显示了由于规模原因导致语义分割的常见错误模式。在第一行中,它缩小了0.5x在图像中,细邮箱分割不一致,但扩展了2.0x在图像中,预测得更好。在第二行中,较大的道路/隔离带区域分辨率较低(0.5x)下分割效果好

在这个例子中,有两个问题:细节和类别混淆。

  • 在第一张图片中,邮箱的细节在2倍尺度的预测中得到了最好的区分,但在0.5倍尺度下的分辨率很差。

  • 与中值分割相比,0.5x对道路的粗预测比2x比例更好,2x规模下存在类混淆。

我们的解决方案在这两个问题上的表现要好得多,几乎没有混淆,对细节的预测也更加平滑和一致。

在确定了这些错误模式后,团队测试了许多不同的策略,包括不同的网络主干(例如,WiderResnet-38、EfficientNet-B4、xcepase -71),以及不同的分割解码器(例如,DeeperLab)。我们决定采用它HRNet作为网络主干,RMI作为主要损失函数。

HRNet它已被证明非常适合计算机视觉任务,因为它保持了比以前更多的网络WiderResnet38分辨率高2倍。RMI损失提供了一种获得结构性损失的方法,无需诉诸条件随机场等。HRNet和RMI损失有助于解决细节和类混淆。

为了进一步解决主要错误模式,我们创新了多尺度注意力和自动标记两种方法。

多尺度注意力

在计算机视觉模型中,多尺度推理通常用于获得最佳结果。多尺度图像在网络中运行,结果由平均池组合。

使用平均池作为一种组合策略,将所有规模视为同样重要的规模。然而,精细的细节通常是最好的的尺度上最好的预测,大的物体在更低的尺度上更好地预测,在更低的尺度上,网络的感觉领域可以更好地理解场景。

学习如何将多尺度预测与像素级结合起来,有助于解决这个问题。以前研究过这一策略,Chen等人的Attention to Scale是最接近的。在这个方法中,同时学习所有尺度的注意力。我们将其称为显式方法,如下图所示。

图3,Chen等人的显式方法是学习一套固定尺度的密集注意力mask,将它们结合起来,形成最终的语义预测。

受Chen受方法的启发,我们提出了一个多尺度的注意力模型,也学会了预测一个密集的模型mask,结合多尺度预测。但在这种方法中,我们学会了相对的注意力mask,如图4所示,用于注意一个尺度和下一个更高的尺度。我们称之为层次方法。

图4,我们的分层多尺度注意力方法。上图:在训练过程中,我们的模型学会了预测两个相邻尺度之间的注意力。下图:推理是链式/分层完成的,以组合多个预测尺度。低尺度的注意力决定了下一个更高尺度的贡献。

这种方法的主要好处如下:

  • 理论训练成本比Chen方法降低了4左右x。

  • 训练只在成对尺度上进行,推理灵活,可以在任何尺度上进行。

表3、层次多尺度注意力方法及Mapillary验证其他方法的比较。网络结构为DeepLab V3 和ResNet-50主干。评价尺度:多尺度评价尺度。FLOPS:网络用于相对训练flops。该方法获得了最好的验证集分数,但与显式方法相比,计算量仅为中等。

图5显示了我们方法的一些例子,以及我们学到的注意力mask。我们很少关注左图中邮箱的细节0.5x但对2的预测.0x预测尺度非常重要。相反,对于右侧图像中非常大的道路/隔离带区域,注意机制学会最大限度地利用较低的尺度(0.5x),以及更少地使用错误的2.0x预测。

图5,两种不同场景的语义和注意力预测。左边的场景说明了一个细节,右边的场景说明了一个大的区域划分。白色表示高值(接近1).0)。给定像素在所有尺度上的注意力值总和为1.0。左:路边的细邮箱在2倍的尺度下得到最好的分辨率,注意力成功地关注了这个尺度而不是其他尺度,这可以从2倍注意力图像中的白色邮箱中得到证明。右图:0大道路/隔离带区域.5x预测效果最好,该区域的注意力确实成功集中在0.5x尺度上。

自动标记

改善城市景观语义分割结果的常用方法是使用大量粗标记数据。这个数据大约是基线精细标记数据的7倍。Cityscapes上的SOTA该方法将使用粗标签,或使用粗标签数据对网络进行预训练,或与细标签数据混合。

然而,由于噪音和不准确,粗标签是一个挑战。ground truth粗标签如图6所示为“原始粗标签”。

图6,自动生成粗图像标签的例子。自动生成的粗标签(右)比原始标签提供了更多ground truth粗标签(中间)更详细的标签细节。这种更精细的标签改善了标签的分布,因为小物品和大物品现在被表示,而不仅仅是大物品。

受最近工作的启发,我们将自动标记作为产生更丰富标签的方法来填写ground truth粗标签的标签空白。我们生成的自动标签显示了比基线粗标签更好的细节,如图6所示。我们认为,填补长尾数据分布的空白有助于泛化。

使用自动标记的简单方法,如使用来自教师网络的各种概率来指导学生,将在磁盘空间上花费非常大的成本。跨越19个类别的2万张,分辨率为1920张×1080粗图像生成标签需要2左右tb存储空间。如此昂贵的最大影响将是降低训练成绩。

我们使用硬阈值而不是软阈值来占用生成的标签空间TB大大减少到600mb。在这种方法中,教师预测概率 > 0.5是有效的,低概率的预测被视为忽略类。表4显示了将粗数据添加到细数据中并使用集成的数据培训新生的好处。

表4,这里显示的基线基线方法HRNet-OCR作为主干和我们的多尺度注意方法。我们比较了两种模式:使用ground truth 细标签 ground truth粗标签训练到ground truth 细标签 auto-粗标签(我们的方法)。基线上使用自动粗化标签的方法提高了0.9的IOU。

图7,自动生成粗图像标签的例子

最后的细节

该模型使用PyTorch框架在4个DGX节点上对fp16张量核进行自动混合精度训练。

论文:https://arxiv.org/abs/2005.10821

代码:https://github.com/nvidia/semanic-segmentation

英文原文:https://developer.nvidia.com/blog/using-multi-scale-attention-for-semantic-segmentation/

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章