锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

TarDAL

时间:2023-02-19 19:30:00 高性能连接器传感器成必需1207g传感器保真

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection

要点:Target-aware Dual Adversarial Learning(方式)、Multi-scenario Multi-Modality Benchmark(benchmark)、Fuse Infrared and Visible for Object Detection(有利于目标检测的融合)
大连理工大学软件学院 liu jinyuan
CVPR2022 oral
摘要
以前的方法在两种模式下发现了共同点,并通过迭代优化或深度网络集成到共同空间中。
缺点:这些方法忽略了隐含互补信息的模态差异,这对整合和后续检测任务非常重要。
贡献:
(1)network:本文提出了一个双层优化公式提出了双层优化公式,合问题,然后扩展到目标感知双对抗学习(TarDAL)整合网络和常用的检测网络。具有生成器和双识别器的集成网络在学习差异的同时寻求共同点。它保留了红外的目标结构信息和可见光的纹理细节。
(2)benchmark:建立了红外和光学
传感器校准的同步成像系统,收集了覆盖广泛场景的最全面的基准。
实验和结果:在几个公共数据集和我们的基准上进行的大量实验表明,我们的方法不仅在视觉上具有吸引力,而且比最先进的方法输出更高 mAP。
开源:源代码和基准 https://github.com/dlut-dimt/TarDAL
1.Introduction
[技术发展背景]多模态成像在监控[28]和自动驾驶[5]中引起了广泛的关注,特别是红外和可见光传感器的结合在后续智能处理[11、38、39]方面具有显著的优势。可见光成像在良好定义的照明条件下提供具有高空间分辨率的丰富细节,而红外传感器捕捉物体发出的环境温度变化,突出显示对照明变化不敏感的热目标结构。不幸的是,红外图像通常伴随着空间分辨率低的模糊细节。由于其明显的外观差异,集成具有视觉吸引力的图像和/或支持更高层次的视觉任务,如分割 [4,29],跟踪 [2,7] 和检测 [32]充分利用红外和可见光的互补信息。
技术发展在过去的几十年里,开发了许多红外线和可见图像融合,旨在提高视觉质量 (IVIF) 方法。传统的多尺度变化 [10, 优化模型 [16, 20, 备用表示 [37, 43] 和子空间法试图发现两种模式的内在共同特征,并设计适当的加权规则进行整合.这些方法通常需要调用耗时的迭代优化过程。最近,当冗余图像可用于培训时,研究人员通过学习强大的特征表达和/或加权策略将深度网络引入 IVIF [8,12,21–23,35]。综合结果证明是一个有效的推理过程,可以产生有效的质量改进。
然而,无论是传统技术还是深度技术的不足 IVIF 该方法都在努力提高质量,而忽略了后续的检测,这是许多实际计算机视觉应用的关键。整合更注重求同存异,略了这两种方式在结构信息和环境背景纹理细节上的差异。这些差异在区分目标的不同特征和进行目标检测方面起着关键作用,并产生高对比度、清晰的外观,有利于人类检查。
此外,从这些差异中学习(实际上是互补信息)需要从两种模式中全面收集成像数据。在照明和天气变化的场景中捕获的图像显示出与这两种模式明显不同的特征。不幸的是,现有的数据收集只涵盖了有限的条件,并设置了学习补充信息和验证有效性的障碍。
本文提出了一个双层优化公式,以解决技术不足的问题。该公式由一个生成器、两个目标感知识别器和一个常用的检测网络组成。一个识别器将前景热目标与红外成像图像区域分开,另一个识别器将背景纹理细节与可见图像的梯度区域分开。为了学习两个网络的最佳参数,我们还推出了合作训练策略。图 1 表明技术最先进 (SOTA) 相比之下,我们的方法从不同的目标和视觉吸引力的融合中准确地检测到对象,时间和参数更少。我们的贡献有四个方面:
【创新点】
? 我们采用双层优化公式和图像集成和对象检测,产生高检测精度和视觉效果更好的集成图像。
? 我们设计了一个目标感知双对抗学习网络(TarDAL),用于面向检测的融合具有更少的参数。这个单生成器和双鉴别器网络“在从差异中学习的同时寻求共同点”,它保留了来自红外的目标信息和来自可见光的纹理细节。
? 我们从双层公式推导出合作培训计划,为快速推理(集成和测试)产生最佳网络参数。
? 我们建立了一个和光学传感器的同步成像系统,校准良好,并收集了多场景多模态数据集 (M3FD),其中包含 4、177 红外和可见图像对齐 23、635 一个注释对象。该数据集涵盖了四个主要场景,包括各种环境、光照、季节和天气,具有广泛的像素变化,如图所示 1 所示。
2.Related Works
从多模态传感器多模态传感器检测对象至关重要。本节简要回顾了以前与我们密切相关的基础学习 IVIF 学习和实证评估所需的方法和可用基准。
2.1. Learning-based approaches
由于多层神经网络强大的非线性拟合能力,深度学习在低级视觉任务[12、15、17、19、23、25、35、40]中取得了可喜的进展。早期工作插入深度网络 IVIF 在此过程中,模块作为特征提取或权重生成 [8、12、13、16]。刘等人。 [16] 两个预训练的级联 CNN,一个用于特征,另一个用于权重学习。研究人员还采用端到端架构,使网络推理能够通过一组网络参数生成合理的集成图像。李等人。 [9] 将残差融合网络引入公共空间中的增强特征,从而产生有利于人工检查的结构一致性。最近,基于对抗网络的生成 (GAN) [26, 36, 42] 的 IVIF 通过将不同的分布传输到所需的分布,产生有吸引力的结果 [21-23]。 Ma等人第一次。为了增强纹理细节[22],引入了融合与可见的对抗游戏。然而,这种信号对抗机制可能会失去重要的红外信息。马等人。红外信息[21]补偿了可见光和红外应用相同的对抗策略。不幸的是,所有这些方法都没有捕捉到这两种成像类型的不同特征。这些互补的差异值得研究,融合和检测可以从中受益。
2.2. Benchmarks
近年来,我们见证了双光集成数据集 IVIF 基准的快速发展包括 TNO Image Fusion [33]、INO Videos Analytics1、OSU Color-Thermal2、RoadScene [35] 多光谱数据集 [32]。
TNO 数据集 [33] 是 IVIF 最常用的公共可用数据集包括 261 多光谱图像白天和晚上。
INO 数据集由加拿大国家光学研究所提供,包括对齐红外和可见光对。它有助于开发各种具有挑战性的视频分析应用程序。
OSU 基于集成对象检测的色热数据库,包括 285 在俄亥俄州立大学校园和颜色图像。白天,整个数据集在俄亥俄州立大学校园繁忙的道路上收集。
徐等人。发布了 Roadscene,在道路场景中拍摄了丰富的物体(如车辆和行人) 221 对齐红外和可见光 [35]。
拓海等人。 [32] 为自动驾驶提出了一种新型的多光谱数据集,该数据集由 RGB、NIR、MIR 和 FIR 图像和带注释的对象类别。
表 1 列出了这些数据集的概况,如规模、分辨率、照明和场景类别。图像分辨率低、对象和场景类型数量有限、标签少,阻碍了现有数据集在多模态、高级检测任务中的广泛应用。

3.The Proposed Method
三部分:
bilevel optimization formulation of fusion and detection
the target-aware dual adversarial learning network for fusion
a cooperative training scheme to learn optimal parameters for both fusion and detection
3.1. Problem formulation
both visual inspection and computer perception,namely detection-oriented fusion,不仅仅是catering for high visual quality。
假设:
x,y,u——红外、可见光、融合图(gray-scale with the size of m × n)
Ld——特定于检测的训练损失
Ψ——有学习参数 ωd 检测网络。
f(·)——基于能量的保真度项包括集成图像 u 和源图像 x 和 y
gT (·) 和 gD (·)——红外和可见光两种可行性约束的定义
根据 Stackelberg 的理论 [14, 18, 我们将面向检测的融合制定为双层优化模型:

图 2(a) 说明这种双层公式可以找到相互支持集成和检测的解决方案。然而,解决方案并不容易。

将传统的优化技术作为集成任务并不是一个简单的等式/不等式约束。相反,我们引入了一个学习参数 ωf 的融合网络 Φ,并将双层优化转化为单层:

因此,我们将优化为两个学习网络 Φ 和 Ψ。我们采用 YOLOv作为检测网络 Ψ 主干,其中 Ld 它还遵循其设置,并仔细设计和集成网络 Φ 如下。
3.2. Target-aware dual adversarial network
典型的深度集成方法在两种不同模式下努力学习共同特征。相反,我们的集成网络寻求共同点,并从暗示这两个成像的互补特征之间的差异中学习。通常,红外线突出了不同的目标结构,而可见光则提供了背景纹理。
我们引入了一种对抗性游戏,该游戏由一个生成器和两个鉴别器组成,以便将两种模式的共同特征与不同特征结合起来,如图 2(b) 所示。鼓励生成器 G 提供逼真的融合图像以同时欺骗两个鉴别器。目标鉴别器 DT 评估来自红外的目标与从 G 给出的融合中屏蔽的目标之间的强度一致性(图 2(b)的顶行);细节鉴别器 DD 将可见的梯度分布与融合的梯度分布区分开来(图 2(b) 的底行)。这两个鉴别器在不同的域中工作,因为目标表现出一致的强度分布,而梯度则表征纹理。
生成器:
生成器有助于生成融合图像,该图像保留整体结构并保持与源图像相似的强度分布。常用的结构相似性指数(SSIM)[34]作为损失函数:

其中 LSSIM 表示结构相似性损失。为了平衡源图像的像素强度分布,我们引入了基于显着度权重(SDW)的像素损失。假设 x 在第 k 个像素的显着性值可以通过

获得。其中 x(k) 是第 k 个像素的值,Hx 是像素值 i 的直方图,我们将像素损失 Lpixel 定义为:

我们采用 5 层密集块 [6] 作为 G 来提取共同特征,然后使用具有三个卷积层的合并块进行特征聚合。每个卷积层由一个卷积操作、批量归一化和 ReLU 激活函数组成。生成的融合图像 u 与源具有相同的大小。
目标和细节鉴别器:
目标鉴别器DT用于将融合结果的前景热目标与红外区分开来,而细节鉴别器DD用于将融合结果的背景细节与可见光区分开来。我们采用预训练的显着性检测网络 [3] 从红外图像计算目标掩码 m,以便两个鉴别器可以在各自的区域(目标和背景)上执行。因此,我们定义了对抗性损失:

[3] R3net:用于显着性检测的递归残差细化网络

其中 R = x m 和 R^ = 1 -R,将目标与背景区分开来, 表示逐点乘法。 ∇(·) 表示梯度运算,例如 Sobel。这些判别器的对抗性损失函数计算 Wasserstein 散度,以相互识别前景热目标和背景纹理细节是否真实,定义为:

其中 ∼r(x) 表示与 ∼p(x) 相似的样本空间。通常,k 和 p 分别设置为 2 和 6。
两个判别器 DT 和 DD 共享相同的网络结构,具有四个卷积层和一个全连接层。图 3 展示了生成器和双重鉴别器的详细架构。
总的来说,Lf 是上述三个主要部分的组合:

其中 α 和 β 是权衡参数。

3.3. Cooperative training strategy
双层优化自然衍生出一种合作训练策略来获得最优的网络参数ω = (ωd, ωf)。我们引入了一个融合正则化器 Lf 并转换 Eq。 (3) 将融合约束下的检测优化为相互优化:

其中 λ 是权衡参数。该正则化器无需设计加权规则,而是可以很好地平衡融合和检测。
图 2(c)说明了梯度传播的流程,以协同训练融合和检测网络。关于 ωd 和 ωf 的损失梯度计算如下:

这些方程揭示了检测损失 w.r.t 的梯度。检测参数以及那些 w.r.t.融合参数都是反向传播的,后者还包括融合损失 w.r.t 的梯度。融合参数。
最后,该策略不仅可以生成视觉上吸引人的图像,还可以在给定训练好的网络参数的情况下输出准确的检测,使我们能够找到面向检测的融合的最佳解决方案,并且比独立训练方案更有效地收敛。
4. Multi-scenario Multi-modality Benchmark
现有的具有红外和可见图像的数据集很难用于从多模态数据中学习和/或评估检测。我们的基准 M3FD 包含高分辨率的红外和可见图像,涵盖各种场景下的各种对象类型,如表 1 的最后一行所示。

我们构建了一个包含一个双目光学相机和一个双目红外传感器的同步系统(如图 5 所示),以捕获自然场景的相应双模态图像。可见光和红外双目相机的基线(双目镜头焦心之间的距离)分别为 12 厘米和 20 厘米。可见光传感器和红外传感器之间的光学中心距离为 4cm。可见光图像具有1024×768的高分辨率和宽广的成像范围,而红外图像的标准分辨率为640×512,波长范围为8-14μm。我们首先校准所有相机以估计它们的内部和外部参数,然后计算一个单应矩阵,将红外图像的坐标投影到可见光的坐标。最终,我们通过将所有图像扭曲到一个共同的坐标,获得了大小为 1024 × 768 的对齐良好的红外/可见图像对。我们将 M3FD 中的所有 4、200 个对齐对分为四种典型类型,即 Daytime、Overcast、Night 和 Challenge,其中有 10 个子场景如图 4 所示。同时,我们注释了 6 个类别的 33、603 个对象,即 People , 汽车, 公共汽车, 摩托车, 卡车和灯, 常见于监控和自动驾驶。 M3FD 的数量和多样性为通过融合图像学习和评估目标检测提供了可能。

  1. Experiments
    我们对四个数据集进行了实验评估(三个用于 IVIF,即 TNO、Roadscene 和 M3FD,两个用于对象检测,即 MS 和 M3FD)。选择 180/3,500 张多模态图像并通过随机裁剪和增强分别裁剪为 320×320 像素的 24k/151k 块,用于训练融合和检测任务。调整参数 α 和 β 分别设置为 20 和 0.1。 Adam 优化器以 1.0 × 10−3 的学习率和指数衰减更新网络参数。 epoch 设置为 300,批量大小为 64。我们的方法是在 PyTorch 上使用 NVIDIA Tesla V100 GPU 实现的。
    5.1. Results of infrared-visible image fusion
    我们通过与 7 种最先进的方法进行比较来评估 TarDAL 的融合性能,包括 DenseFuse [8]、FusionGAN [22]、RFN [9]、GANMcC [23]、DDcGAN [21]、MFEIF [ 12]和U2Fusion [35]。

定性比较来自三个数据集的三个典型图像对的直观定性结果如图 6 所示。与其他现有方法相比,我们的 TarDAL 具有两个显着优势。首先,可以很好地保留红外图像中的判别目标。如图6(第二组的绿色缠结)所示,我们方法中的人表现出高对比度和鲜明的突出轮廓,有利于视觉观察。其次,我们的结果可以从可见图像(第一组和第三组的绿色缠结)中保留丰富的纹理细节,这更符合人类视觉系统。相比之下,视觉检查表明 DenseFuse 和 FusionGAN 无法很好地突出判别目标,而 GANMcC 和 DDcGAN 未能获得丰富的纹理细节。请注意,我们的 TarDAL 能够生成更视觉友好的融合结果,具有清晰的目标、更清晰的边缘轮廓并保留丰富的纹理细节。

定量比较随后,我们在 400 个图像对(来自 TNO 的 20 个图像对、来自 RoadScene 的 40 个图像对和来自 M3FD 的 340 个图像对)上将我们的 TarDAL 与上述竞争对手进行了定量比较。此外,还引入了三个评估指标,即互信息(MI)[30]、熵(EN)[31]和标准差(SD)[1]进行评估。定量结果如图 7 所示。从统计结果可以看出,我们的方法在所有评估指标中的三个数据集上不断生成最大或第二大的平均值。同时,实现较低的方差表明我们的方法在处理各种视觉场景时更加稳定。具体来说,MI 的最大平均值证明我们的方法从两个源图像中传输了更多的信息。 EN 和 SD 的值表明我们的结果包含丰富的信息以及目标与背景之间的最高对比度。综上所述,我们的方法在一定程度上稳定地保留了有用的信息,尤其是最具辨别力的目标、最丰富的纹理细节以及与源图像相当大的结构相似性。
5.2. Results of infrared-visible object detection
为了彻底讨论 IVIF 如何影响多模态目标检测性能,我们使用了两个数据集,即 Multispectral 和 M3FD。其中,我们使用 YOLOv5 作为目标检测的基线模型。为了公平比较,我们分别保留了七种最先进方法的融合结果的检测模型。定性比较 如图 8 所示,请注意,仅使用红外或可见传感器无法很好地检测,例如,红外图像是一辆停止的汽车,而可见光是人。相反,几乎所有的融合方法都通过利用双方的互补信息来提高检测性能。通过在我们的方法中设计目标感知双层对抗学习和合作训练方案集成,我们可以不断生成检测友好的融合结果,该结果在检测人和车辆方面具有优势,例如远处岩石上的被遮蔽的汽车和行人。

定量比较表 2 报告了两个数据集的定量结果。几乎所有的融合方法都取得了有希望的检测结果,其中检测AP大大超过了仅使用可见光或红外图像的情况。请注意,我们的 TarDAL 在两个数据集上的检测 mAP 方面优于其他方法,与第二个数据集(即 DenseFuse 和 GANMcC)相比,它们分别获得了 1.4% 和 1.1% 的改进。值得指出的是,我们的 TarDAL 在处理挑战场景方面具有优势,因为 TarDAL 充分发现了来自不同模态的独特信息。
计算复杂度分析为了全面分析我们方法的计算复杂度,我们提供了所有方法的时间消耗和计算效率。如表 2 的最后一列所示,CNN 的强大计算能力使这些基于学习的方法能够实现高速。请注意,我们的方法在 FLOPs 和训练参数方面同时实现了最高的运行速度和较低的计算复杂度,高效地集成了后续的高级视觉应用。

5.3. Ablation studies
模型架构研究我们研究了我们方法的模型架构,并进一步验证了不同单个组件的有效性。首先,我们从整个网络中移除目标鉴别器 DT。在图 9 中,由于该变体中缺乏区分重要的红外目标,融合结果往往会在一定程度上模糊目标。此外,在表 3 中,请注意 DT 在提高融合后的检测性能方面也起着至关重要的作用。其次,细节鉴别器 DD 在保留可见图像的纹理细节方面有贡献。在没有 DD 的情况下,融合图像的背景细节无法完全恢复,直观的视觉结果如图 9 所示。但是,由于冗余的背景细节,DD 对目标检测的负面影响很小。此外,如果没有将 DT 和 DD 集成到我们的整个网络中,EN 和 SD 可以在 TNO 数据集上实现最高值。这是因为融合结果中的大量噪声可能会导致 EN 和 SD 的显着上升。综上所述,我们的方法依赖于每一步的中间结果,每一步都对最终的融合结果产生积极影响。

分析训练损失函数我们讨论了不同损失函数对我们方法的影响。在图 10 中,很容易注意到我们的方法比没有 SDW 的方法可以保持更多的高对比度显着像素分布,这可以说明新设计的 SDW 函数的有效性。同时,没有 m 的方法可能会丢失一些重要的细节,例如树叶和烟囱的轮廓。这是因为 m 允许两个鉴别器在各自的区域下进行对抗学习,因此更加关注它们的独特特征。

评估不同版本的训练策略我们进一步验证了我们的合作训练(CT)与直接训练(DT)和任务导向训练(TT)相比的优势。如图 11 所示,TT 仅使用检测损失来训练网络,导致观察的视觉效果较差。相比之下,CT在提升检测性能和更好的视觉效果方面具有显着优势。在表 4 中可以发现相同的趋势,CT 在两个不同的数据集中达到最大或第二大的分数。

  1. Conclusion
    在本文中,提出了一种用于联合实现融合和检测的双层优化公式。通过将模型展开到设计良好的融合网络和常用的检测网络,我们可以为融合和目标检测生成视觉友好的结果。为了促进该领域的未来研究,我们提出了具有可见红外传感器的同步成像系统,并收集了多场景多模态基准。

写在笔记软件中,不知道为什么无法直接复制图片过来,之后再完善

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章