锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

85.4% mIOU！NVIDIA：使用多尺度注意力进行语义分割，代码已开源！

时间：2023-09-06 05:07:02 oy054s传感器

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

下载论文PDF和源代码：

链接：https://pan.baidu.com/s/17oy5JBnmDDOtKasfPrWNiQ 提取码：lk5z

导读

来自NVIDIA的SOTA文章的语义分割，代码开源。

论文：https://arxiv.org/abs/2005.10821

代码链接：

https://github.com/NVIDIA/semanic-segmentation

有一项重要的技术，通常用于自动驾驶、医学成像，甚至缩放虚拟背景：语义分割。这标记了图像中的像素N类中的一个(N是任何数量的类别)的过程，可以是汽车、道路、人或树。就医学图像而言，类别对应于不同的器官或解剖结构。

NVIDIA Research我们正在研究语义分割，因为它是一种广泛应用的技术。我们还认为，改进语义分割的技术也可能有助于改进许多其他密集的预测任务，如光流预测（预测物体的运动）、图像超分辨率等。

在两个共同基准中，我们开发了一种新的语义分割方法：Cityscapes和Mapillary Vistas上达到了SOTA的结果。IOU是描述语义分割预测精度的交并比。

在Cityscapes该方法在测试集中达到85.4 IOU，与其他方法相比，考虑到这些分数之间的接近程度是一个相当大的进步。

在Mapillary在验证集中使用单个模型达到61.1 IOU，与其他使用模型集成相比，最佳结果是58.7。

结果预测

研究过程

为了开发这种新方法，我们考虑了需要改进图像的特定区域。图2显示了两种最大的失败模式：细节错误和类别混淆。

图2显示了由于规模原因导致语义分割的常见错误模式。在第一行中，它缩小了0.5x在图像中，细邮箱分割不一致，但扩展了2.0x在图像中，预测得更好。在第二行中，较大的道路/隔离带区域分辨率较低(0.5x)下分割效果好

在这个例子中，有两个问题：细节和类别混淆。

在第一张图片中，邮箱的细节在2倍尺度的预测中得到了最好的区分，但在0.5倍尺度下的分辨率很差。
与中值分割相比，0.5x对道路的粗预测比2x比例更好，2x规模下存在类混淆。

我们的解决方案在这两个问题上的表现要好得多，几乎没有混淆，对细节的预测也更加平滑和一致。

在确定了这些错误模式后，团队测试了许多不同的策略，包括不同的网络主干(例如，WiderResnet-38、EfficientNet-B4、xcepase -71)，以及不同的分割解码器(例如，DeeperLab)。我们决定采用它HRNet作为网络主干，RMI作为主要损失函数。

HRNet它已被证明非常适合计算机视觉任务，因为它保持了比以前更多的网络WiderResnet38分辨率高2倍。RMI损失提供了一种获得结构性损失的方法，无需诉诸条件随机场等。HRNet和RMI损失有助于解决细节和类混淆。

为了进一步解决主要错误模式，我们创新了多尺度注意力和自动标记两种方法。

多尺度注意力

在计算机视觉模型中，多尺度推理通常用于获得最佳结果。多尺度图像在网络中运行，结果由平均池组合。

使用平均池作为一种组合策略，将所有规模视为同样重要的规模。然而，精细的细节通常是最好的的尺度上最好的预测，大的物体在更低的尺度上更好地预测，在更低的尺度上，网络的感觉领域可以更好地理解场景。

学习如何将多尺度预测与像素级结合起来，有助于解决这个问题。以前研究过这一策略，Chen等人的Attention to Scale是最接近的。在这个方法中，同时学习所有尺度的注意力。我们将其称为显式方法，如下图所示。

图3，Chen等人的显式方法是学习一套固定尺度的密集注意力mask，将它们结合起来，形成最终的语义预测。

受Chen受方法的启发，我们提出了一个多尺度的注意力模型，也学会了预测一个密集的模型mask，结合多尺度预测。但在这种方法中，我们学会了相对的注意力mask，如图4所示，用于注意一个尺度和下一个更高的尺度。我们称之为层次方法。

图4，我们的分层多尺度注意力方法。上图:在训练过程中，我们的模型学会了预测两个相邻尺度之间的注意力。下图:推理是链式/分层完成的，以组合多个预测尺度。低尺度的注意力决定了下一个更高尺度的贡献。

这种方法的主要好处如下：

理论训练成本比Chen方法降低了4左右x。
训练只在成对尺度上进行，推理灵活，可以在任何尺度上进行。

表3、层次多尺度注意力方法及Mapillary验证其他方法的比较。网络结构为DeepLab V3 和ResNet-50主干。评价尺度：多尺度评价尺度。FLOPS：网络用于相对训练flops。该方法获得了最好的验证集分数，但与显式方法相比，计算量仅为中等。

图5显示了我们方法的一些例子，以及我们学到的注意力mask。我们很少关注左图中邮箱的细节0.5x但对2的预测.0x预测尺度非常重要。相反，对于右侧图像中非常大的道路/隔离带区域，注意机制学会最大限度地利用较低的尺度(0.5x)，以及更少地使用错误的2.0x预测。

图5，两种不同场景的语义和注意力预测。左边的场景说明了一个细节，右边的场景说明了一个大的区域划分。白色表示高值(接近1).0)。给定像素在所有尺度上的注意力值总和为1.0。左：路边的细邮箱在2倍的尺度下得到最好的分辨率，注意力成功地关注了这个尺度而不是其他尺度，这可以从2倍注意力图像中的白色邮箱中得到证明。右图:0大道路/隔离带区域.5x预测效果最好，该区域的注意力确实成功集中在0.5x尺度上。

自动标记

改善城市景观语义分割结果的常用方法是使用大量粗标记数据。这个数据大约是基线精细标记数据的7倍。Cityscapes上的SOTA该方法将使用粗标签，或使用粗标签数据对网络进行预训练，或与细标签数据混合。

然而，由于噪音和不准确，粗标签是一个挑战。ground truth粗标签如图6所示为“原始粗标签”。

图6，自动生成粗图像标签的例子。自动生成的粗标签(右)比原始标签提供了更多ground truth粗标签（中间）更详细的标签细节。这种更精细的标签改善了标签的分布，因为小物品和大物品现在被表示，而不仅仅是大物品。

受最近工作的启发，我们将自动标记作为产生更丰富标签的方法来填写ground truth粗标签的标签空白。我们生成的自动标签显示了比基线粗标签更好的细节，如图6所示。我们认为，填补长尾数据分布的空白有助于泛化。

使用自动标记的简单方法，如使用来自教师网络的各种概率来指导学生，将在磁盘空间上花费非常大的成本。跨越19个类别的2万张，分辨率为1920张×1080粗图像生成标签需要2左右tb存储空间。如此昂贵的最大影响将是降低训练成绩。

我们使用硬阈值而不是软阈值来占用生成的标签空间TB大大减少到600mb。在这种方法中，教师预测概率 > 0.5是有效的，低概率的预测被视为忽略类。表4显示了将粗数据添加到细数据中并使用集成的数据培训新生的好处。

表4，这里显示的基线基线方法HRNet-OCR作为主干和我们的多尺度注意方法。我们比较了两种模式：使用ground truth 细标签 ground truth粗标签训练到ground truth 细标签 auto-粗标签(我们的方法)。基线上使用自动粗化标签的方法提高了0.9的IOU。

图7，自动生成粗图像标签的例子

最后的细节

该模型使用PyTorch框架在4个DGX节点上对fp16张量核进行自动混合精度训练。

论文：https://arxiv.org/abs/2005.10821

代码：https://github.com/nvidia/semanic-segmentation

英文原文：https://developer.nvidia.com/blog/using-multi-scale-attention-for-semantic-segmentation/

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

85.4% mIOU！NVIDIA：使用多尺度注意力进行语义分割，代码已开源！

相关文章