【AI视野·今日CV 计算机视觉论文速览第243期】Thu, 14 Apr 2022

时间：2022-09-23 15:00:00 hoa传感器

AI视野·今日CS.CV 计算机视觉论文速读
Thu, 14 Apr 2022
Totally 38 papers
??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

Controllable Video Generation through Global and Local Motion Dynamics
Authors Aram Davtyan, Paolo Favaro
我们提出了 GLASS，全局和局部动作驱动的序列合成方法。 GLASS 它是一种无监督的视频序列训练的生成模型，在测试过程中可以为输入图像设置动画。该方法学习将帧分为前景背景层，并通过全局和局部动作表示生成前景的过渡。全局动作与 2D 位移明显相关，而局部动作则与几何和光度局部变形有关。 GLASS 利用循环神经网络在帧间转换，并通过重建损失进行训练。我们还介绍了它 W Sprites Walking Sprites，这是一个具有预定义动作空间的新型合成数据集。

Neural Vector Fields for Surface Representation and Inference
Authors Edoardo Mello Rella, Ajad Chhatkuli, Ender Konukoglu, Luc Van Gool
最近证明了神经隐式场可以准确表达 3D 形状，从而在 3D 形状分析中开辟了各种应用。到目前为止，用于 3D 表示此类隐式字段为标量，编码有符号距离或二进制体积占用，最近无符号距离。然而，前两者只能表示封闭的形状，而无符号距离很难准确快速地推断形状。在本文中，我们提出了一种神经向量场，用于形状表达，以克服上述两个问题。将空间中的每个点映射到最近表面的方向，我们可以表示任何形状。类似地，在推断矢量场上应用行进立方体算法可以重建形状网格，并提出小的变化。

A9-Dataset: Multi-Sensor Infrastructure-Based Dataset for Mobility Research
Authors Christian Cre , Walter Zimmer, Leah Strand, Venkatnarayanan Lakshminarasimhan, Maximilian Fortkord, Siyi Dai, Alois Knoll
基于数据密集型机器学习的技术在未来移动解决方案的开发中发挥着越来越重要的作用，从驾驶员辅助和自动化功能到通过特殊基础设施实现的实时交通管理系统。高质量现实世界数据的可用性通常是大规模开发和可靠部署此类系统的重要先决条件。为此，我们在德国慕尼黑附近展示了它 3 公里长的 Providentia 路边传感器基础设施的试验场 A9 数据集。该数据集包括匿名和精确时间戳的多模态传感器和高分辨率对象数据，涵盖各种交通情况。作为本文描述的第一组数据的一部分，我们提供了它 A9 高速公路上两架空龙门桥的相机和 LiDAR 帧，以及用 3D 边界框标记的对象。总共包括第一组 1000 多个传感器帧和 14000 交通对象。

Does depth estimation help object detection?
Authors Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas
当地面深度与颜色数据相结合时，有助于提高只使用颜色基线模型的对象检测精度。然而，估计的深度并不总是有所改善。许多因素在使用估计深度时会影响对象检测的性能。在本文中，我们通过使用地面现场和估计深度、最先进的深度估计网络效果、使用不同的室内外等详细实验，全面研究了这些因素 RGB D 数据集作为训练数据的深度估计效果，以及将深度集成到基本对象检测器网络的不同架构选择。

SpoofGAN: Synthetic Fingerprint Spoof Images
Authors Steven A. Grosz, Anil K. Jain
指纹欺骗检测进展的主要限制之一是缺乏公开可用的大规模指纹欺骗数据集，由于越来越关注生物特征数据的隐私和安全性，这一问题变得更加复杂。此外，大多数最先进的欺骗检测算法都依赖于在存在大量训练数据的情况下表现最佳的深度网络。本工作旨在证明合成活指纹和欺骗指纹为这些算法提供足够的数据效用，以提高指纹欺骗检测算法的性能，超过在有限数量的公共可用真实数据集练。首先，我们为修改最先进的生成架构以合成高质量的实时和欺骗指纹提供了详细的信息。然后，我们提供定量和定性分析，以验证模拟真实数据样本分布中合成指纹的质量。我们展示了我们的合成活指纹和欺骗指纹在深度网络中的实用性，训练用于指纹欺骗检测，显著提高了三个不同评估数据集的性能，而不是只在真实数据上训练的相同模型。

DMCNet: Diversified Model Combination Network for Understanding Engagement from Video Screengrabs
Authors Sarthak Batra, Hewei Wang, Avishek Nag, Philippe Brodeur, Marianne Checkley, Annette Klinkert, Soumyabrata Dev
参与度是学习体验的质量 QoLE 在智能教育界面的发展中发挥着重要作用。大规模开放在线课程 MOOC 学习其他在线资源的人数一直在迅速增加，因为它们为我们提供了随时随地学习的灵活性。这为学生提供了良好的学习体验。然而，这种学习界面需要能够识别学生的参与，以获得全面的学习经验。这对学生和教育工作者都很有用。然而，由于其主观性和收集数据的能力，理解参与是一项具有挑战性的任务。在本文中，我们在视频截图的开源数据集上提出了各种模型进行培训。我们的非深度学习模型是基于流行算法的组合，如定向梯度 HOG 支持向量机的直方图 SVM、不变尺度特征的变化 SIFT 加速鲁棒的特点 SURF。深度学习包括密集连接卷积网络 DenseNet 121、残差网络 ResNet 18 和 MobileNetV1。我们使用各种指标来显示每个模型的性能，如基尼指数和调整后 F 测量 AGF 接收器操作特性曲线 AUC 下的面积。我们使用各种降维技术，如主要成分分析 PCA 和 t Distributed Stochastic Neighbor Embedding t SNE 了解特征子空间中数据的分布。

Deep learning based automatic detection of offshore oil slicks using SAR data and contextual information
Authors Emna Amri LISTIC , Hermann Courteille LISTIC , A Benoit LISTIC , Philippe Bolon LISTIC , Dominique Dubucq, Gilles Poulain, AnthonyCredoz
海洋表面监测，特别是浮油检测，由于其对石油勘探和生态系统风险预防的重要性，已成为强制性的。多年来，检测任务一直由照片翻译人员使用合成孔径雷达 SAR 图像在风等上下文数据的帮助下手动执行。这种繁琐的手动工作无法处理可用传感器收集的越来越多的数据，因此需要自动化。文献报道了传统的和半自动化的检测方法，这些方法通常集中在人为泄漏或自然渗漏源上的有限数据收集上的浮油。作为扩展，本文在具有两种浮油的广泛数据库上介绍了海上浮油的自动化。它建立在 Sentinel 1 SAR 数据的专业照片解释器 4 年超过全球 3 个勘探和监测区域的光滑注释的基础上。所有考虑的 SAR 图像和相关注释都与真实的浮油监测场景有关。此外，系统地计算风估计以丰富数据收集。论文贡献如下：使用 FC DenseNet 进行语义分割和使用 Mask RCNN 进行实例分割的两种深度学习方法的性能比较。 ii 引入气象信息风速被认为对性能评估中的浮油检测有价值。本研究的主要结果显示了通过深度学习方法进行浮油检测的有效性，特别是 FC DenseNet，它在我们的测试集中捕获了超过 92 个石油实例。此外，模型性能与诸如浮油大小和风速等上下文信息之间的强相关性在性能评估中得到证明。

Mitigating Bias in Facial Analysis Systems by Incorporating Label Diversity
Authors Camila Kolling, Victor Araujo, Adriano Veloso, Soraia Raupp Musse
面部分析模型越来越多地应用于对人们的生活产生重大影响的现实世界应用中。然而，如前所述，自动分类面部属性的模型可能会表现出对受保护群体的算法歧视行为，可能对个人和社会造成负面影响。因此，开发可以减轻面部分类器中意外偏差的技术至关重要。因此，在这项工作中，我们引入了一种新颖的学习方法，该方法结合了基于人的主观标签和基于面部特征的数学定义的客观注释。具体来说，我们从大规模的人类注释数据集中生成新的客观注释，每个注释都捕获分析的面部特征的不同视角。然后，我们提出了一种集成学习方法，该方法结合了在不同类型注释上训练的各个模型。我们对注释过程以及数据集分布进行了深入分析。

Transparent Shape from Single Polarization Images
Authors Shao Mingqi, Xia Chongkun, Yang Zhendong, Huang Junnan, Wang Xueqian
本文提出了一种数据驱动的方法，用于从偏振获得透明形状。由于固有的高透射率，以前基于镜面反射模型的偏振SfP方法难以估计透明形状，而透明SfP数据集的缺乏也限制了数据驱动方法的应用。因此，我们构建了由合成数据集和真实世界数据集组成的透明 SfP 数据集。为了确定基于物理的反射模型的可靠性，我们通过利用偏振信息的固有缺陷来定义基于物理的先验置信度，然后我们提出了一个多分支融合网络来嵌入置信度。实验结果表明，我们的方法优于其他 SfP 方法。与之前的方法相比，我们的方法的平均和中值角度误差从 19.00 circ 和 14.91 circ 降低到 16.72 circ 和 13.36 circ ，并且精度 11.25 circ 、 22.5 circ 、 30 circ 从 38.36 、 77.36 、 87.48 提高到

Recognition of Freely Selected Keypoints on Human Limbs
Authors Katja Ludwig, Daniel Kienzle, Rainer Lienhart
几乎所有人体姿态估计 HPE 数据集都包含一组固定的关键点。在此类数据集上训练的标准 HPE 模型只能检测这些关键点。如果需要更多点，则必须手动注释它们并且需要重新训练模型。我们的方法利用 Vision Transformer 架构来扩展模型的能力，以检测人四肢上的任意关键点。我们提出了两种不同的方法来编码所需的关键点。 1 每个关键点由其在固定集中的两个封闭关键点之间的连线上的位置以及该线与肢体边缘之间的相对距离来定义。 2 关键点被定义为标准姿势上的坐标。这两种方法都基于 TokenPose 架构，而与固定关键点相对应的关键点令牌被我们的新模块替换。

Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis
Authors Xuanmeng Zhang, Zhedong Zheng, Daiheng Gao, Bang Zhang, Pan Pan, Yi Yang
3D 感知图像合成旨在通过学习 3D 表示从多个视图生成对象图像。然而，一个关键挑战仍然是现有方法缺乏几何约束，因此通常无法生成多视图一致的图像。为了应对这一挑战，我们提出了 Multi View Consistent Generative Adversarial Networks MVCGAN，用于具有几何约束的高质量 3D 感知图像合成。通过利用生成图像的底层 3D 几何信息，即深度和相机变换矩阵，我们明确地建立视图之间的立体对应关系以执行多视图联合优化。特别是，我们强制成对视图之间的光度一致性，并将立体混合机制集成到训练过程中，鼓励模型推理正确的 3D 形状。此外，我们设计了具有特征级多视图联合优化的两阶段训练策略以提高图像质量。

Active Diffusion and VCA-Assisted Image Segmentation of Hyperspectral Images
Authors Sam L. Polk, Kangning Cui, Robert J. Plemmons, James M. Murphy
高光谱图像编码丰富的结构，可用于机器学习算法的材料识别。本文介绍了用于活性材料识别的主动扩散和 VCA 辅助图像分割 ADVIS。 ADVIS 从高光谱图像中的其他高纯度、高密度像素中选择远离扩散距离的高纯度、高密度像素，这是一个数据相关度量。这些像素的地面实况标签被查询并传播到图像的其余部分。

Reuse your features: unifying retrieval and feature-metric alignment
Authors Javier Morlana, J.M.M. Montiel
我们提出了一个紧凑的管道来统一视觉定位图像检索、候选重新排序和初始姿态估计以及相机姿态细化的所有步骤。我们的关键假设是用于这些单独任务的深层特征具有共同的特征，因此我们应该在管道的所有过程中重用它们。我们的 DRAN 深度检索和图像对齐网络能够提取全局描述符以进行有效的图像检索，使用中间层次特征重新排列检索列表并产生初始姿态猜测，最终通过基于学习的特征度量优化来细化深度多尺度密集特征。 DRAN 是第一个能够为视觉定位的三个步骤生成特征的单一网络。

Assessing cloudiness in nonwovens
Authors Michael Godehardt, Ali Moghiseh, Christine Oetjen, Joachim Ohser, Simon Ringger, Katja Schladitz, Ingo Windschiegel
过滤介质的均匀性对于材料选择和质量控制以及比重标称克重和局部重量分布都很重要。浑浊或形成是用于描述过滤介质中的均质性偏差的概念。我们建议从相对局部区域权重的功率谱中推导出云量指数，在选定的频率范围内进行积分。功率谱捕获宽光谱范围内的能量密度。此外，在一定条件下，非织造布的结构完全由面积权重、局部面积权重的方差和功率谱来表征。因此，功率谱是专门反映云量的参数。在这里，我们解决实际应用中出现的问题。最突出的是光谱波段的选择。它当然取决于云的特征大小，但受图像大小和横向分辨率的限制。我们表明，基于相对局部面积权重的功率谱的云量指数在理论上是有根据的，并且可以从图像数据中稳健地测量。选择光谱带可以捕捉视觉上感知或发现对产品特性起决定性作用的混浊度。

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection
Authors Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, Hao Shen, Huaxia Xia, Si Liu
3D视觉定位旨在根据自由形式的语言描述在3D点云场景中定位参考目标对象。以前的方法大多遵循两阶段范式，即语言无关检测和跨模态匹配，这受到孤立架构的限制。在这样的范式中，由于 3D 点云的不规则和大尺度的固有特性，检测器需要从原始点云中采样关键点，为每个关键点生成相应的目标建议。然而，稀疏提案可能会在检测中遗漏目标，而密集提案可能会混淆匹配模型。此外，语言无关检测阶段只能对目标上的一小部分关键点进行采样，从而恶化目标预测。在本文中，我们提出了一种 3D Single Stage Referred Point Progressive Selection 3D SPS 方法，该方法在语言的引导下逐步选择关键点并直接定位目标。具体来说，我们提出了一个描述感知关键点采样 DKS 模块，以粗略地关注语言相关对象的点，这是接地的重要线索。此外，我们设计了一个面向目标的渐进式挖掘 TPM 模块，通过渐进式模态内关系建模和模态间目标挖掘来精细地集中在目标点上。 3D SPS 弥补了 3D 视觉定位任务中检测和匹配之间的差距，在单个阶段定位目标。

Rapid model transfer for medical image segmentation via iterative human-in-the-loop update: from labelled public to unlabelled clinical datasets for multi-organ segmentation in CT
Authors Wenao Ma, Shuang Zheng, Lei Zhang, Huimao Zhang, Qi Dou
尽管深度学习在医学图像分析方面取得了显著成功，但关于如何将 AI 模型从一个数据集快速转移到另一个数据集以用于临床应用的研究仍在探索中。本文提出了一种新颖的通用人在循环方案，用于有效地将分割模型从小规模标记数据集转移到更大规模的未标记数据集，用于 CT 中的多器官分割。为了实现这一点，我们建议使用一个点火器网络，该网络可以从小规模的标记数据集中学习并生成粗略的注释来启动人机交互过程。然后，我们为我们更大规模的数据集使用一个维持网络，并在新的注释数据上迭代更新它。此外，我们为注释者提出了一种灵活的标记策略，以减少初始注释工作量。报告和分析在我们的私人数据集上评估的每个主题的模型性能和注释时间成本。

Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization
Authors Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
由于其巨大的社会影响，deepfake 检测在计算机视觉社区中得到了积极的关注。大多数 deepfake 检测方法依赖于身份、面部属性和基于对抗性扰动的整个视频或随机位置的时空修改，同时保持内容的含义完整。然而，一个复杂的 deepfake 可能只包含一小部分视频音频操作，通过这些操作，内容的含义可以例如从情感角度完全颠倒。为了解决这一差距，我们引入了一个内容驱动的视听 deepfake 数据集，称为 Localized Audio Visual DeepFake LAV DF，明确设计用于学习时间伪造定位的任务。具体来说，内容驱动的视听操作在战略位置执行，以改变整个视频的情感极性。我们对所提出的数据集进行基准测试的基线方法是 3DCNN 模型，称为边界感知时间伪造检测 BA TFD，它通过对比、边界匹配和帧分类损失函数进行引导。

Context-based Deep Learning Architecture with Optimal Integration Layer for Image Parsing
Authors Ranju Mandal, Basim Azam, Brijesh Verma
深度学习模型最近在图像解析任务上效率很高。然而，深度学习模型并不完全能够同时利用视觉和上下文信息。所提出的基于三层上下文的深度架构能够将上下文与视觉信息显式集成。这里的新想法是有一个视觉层来学习基于二进制类的学习器的视觉特征，一个上下文层来学习上下文，然后是一个集成层，通过基于遗传算法的最优融合来学习两者以产生最终决策。在基准数据集上评估的实验结果是有希望的。

Defensive Patches for Robust Recognition in the Physical World
Authors Jiakai Wang, Zixin Yin, Pengfei Hu, Aishan Liu, Renshuai Tao, Haotong Qin, Xianglong Liu, Dacheng Tao
为了在现实世界的高风险环境中运行，深度学习系统必须承受不断阻碍其稳健性的噪音。数据端防御通过对输入数据的操作而不是修改模型来提高鲁棒性，由于其在实践中的可行性而引起了广泛的关注。然而，以前的数据端防御显示出对多种噪声的泛化能力低，跨多个模型的可迁移性弱。受鲁棒识别依赖于局部和全局特征这一事实的启发，我们提出了一个防御性补丁生成框架，通过帮助模型更好地利用这些特征来解决这些问题。为了对各种噪声进行泛化，我们先将特定类别的可识别模式注入到一个受限的局部补丁中，以便防御补丁可以保留针对特定类别的更多可识别特征，从而引导模型在噪声下更好地识别。对于跨多个模型的可迁移性，我们引导防御补丁在一个类中捕获更多的全局特征相关性，以便它们可以激活模型共享的全局感知并在模型之间更好地迁移。我们的防御补丁显示了通过简单地将它们粘贴在目标对象周围来提高应用程序稳健性的巨大潜力。广泛的实验表明，我们在数字和物理世界中的对抗性和腐败鲁棒性平均提高了 20 的准确性，大大优于其他人。

5G Features and Standards for Vehicle Data Exploitation
Authors Gorka Velez 1 , Edoardo Bonetto 2 , Daniele Brevi 2 , Angel Martin 1 , Gianluca Rizzi 3 , Oscar Casta eda 4 , Arslane Hamza Cherif 5 , Marcos Nieto 1 , Oihana Otaegui 1 1 Vicomtech Foundation, 2 Links Foundation, 3 Wind Tre, 4 Dekra, 5 UNIMORE ICOOR
汽车实时捕获并生成有关驾驶动态、环境以及驾驶员和乘客活动的大量数据。由于协作、互联和自动化移动 CCAM 的普及，车辆数据的价值变得具有战略意义，不仅对于汽车行业，而且对于包括中小型企业、中小企业和初创企业在内的许多不同的利益相关者。 5G 可以使汽车捕获的数据为部署在云中的创新应用程序和服务提供数据，从而确保比以前的蜂窝技术更低的延迟和更高的吞吐量。

Deep Learning Model with GA based Feature Selection and Context Integration
Authors Ranju Mandal, Basim Azam, Brijesh Verma, Mengjie Zhang
深度学习模型在计算机视觉和图像处理应用中非常成功。自成立以来，许多性能最佳的图像分割方法都基于深度 CNN 模型。然而，尽管具有复杂的多层架构，但深度 CNN 模型无法将全局和局部上下文与视觉特征相结合。我们提出了一种新颖的三层深度学习模型，它吸收或学习独立的全局和局部上下文信息以及视觉特征。所提出模型的新颖之处在于，引入了 One vs All 基于二元类的学习器来学习视觉层中的遗传算法 GA 优化特征，然后是学习图像的全局和局部上下文的上下文层，最后是第三层集成所有信息以最佳方式获得最终的类标签。斯坦福背景和 CamVid 基准图像解析数据集用于我们的模型评估，我们的模型显示出有希望的结果。

Calibrating Class Weights with Multi-Modal Information for Partial Video Domain Adaptation
Authors Xiyu Wang, Yuecong Xu, Kezhi Mao, Jianfei Yang
假设源标签空间包含目标标签空间，部分视频域自适应 PVDA 是跨域视频分类问题的更通用和实用的场景。 PVDA 的主要挑战是减轻由仅源异常类引起的负迁移。为了应对这一挑战，一个关键步骤是聚合目标预测以通过对目标类进行加权和对异常值类进行加权来分配类权重。然而，类权重的错误预测会误导网络并导致负迁移。以前的工作通过利用时间特征和注意力机制来提高类权重的准确性，但是当域变化很大时，这些方法可能会在尝试生成准确的类权重时出现不足，就像在大多数现实世界的场景中一样。为了应对这些挑战，我们提出了多模态集群校准的部分对抗网络 MCAN。 MCAN 使用来自多个时间尺度的多模态特征增强视频特征提取，以形成更稳健的整体特征。它利用一种新颖的类权重校准方法来减轻由不正确的类权重引起的负迁移。校准方法尝试使用无监督聚类隐含的分布信息来识别和权衡正确和不正确的预测。

COAP: Compositional Articulated Occupancy of People
Authors Marko Mihajlovic, Shunsuke Saito, Aayush Bansal, Michael Zollhoefer, Siyu Tang
我们为铰接的人体提出了一种新颖的神经隐式表示。与显式模板网格相比，神经隐式身体表示为与环境的交互建模提供了一种有效的机制，这对于 3D 场景中的人体运动重建和合成至关重要。然而，现有的神经内隐体要么对高度清晰的姿势泛化能力差，要么推理时间慢。在这项工作中，我们观察到可以利用关于人体形状和运动结构的先验知识来提高泛化能力和效率。我们将全身几何分解为局部身体部位，并采用部分感知编码器解码器架构来学习神经铰接占用，从而在本地模拟复杂的变形。我们的局部形状编码器不仅表示相应身体部位的身体变形，还表示相邻身体部位的身体变形。解码器结合了局部身体形状的几何约束，显着提高了姿势泛化能力。我们证明我们的模型适用于解决与 3D 环境的自相交和碰撞。定量和定性实验表明，我们的方法在效率和准确性方面都大大优于现有解决方案。

Dynamic Neural Textures: Generating Talking-Face Videos with Continuously Controllable Expressions
Authors Zipeng Ye, Zhiyao Sun, Yu Hui Wen, Yanan Sun, Tian Lv, Ran Yi, Yong Jin Liu
最近，说话人脸视频生成受到了相当大的关注。到目前为止，大多数方法都会生成带有中性表达式或由神经网络以不可控方式隐式确定的表达式的结果。在本文中，我们提出了一种实时生成具有连续可控表情的说话人脸视频的方法。我们的方法基于一个重要的观察结果。与中等分辨率的面部几何形状相比，大多数表情信息都存在于纹理中。然后，我们利用神经纹理生成高质量的说话人脸视频，并设计了一种新颖的神经网络，可以为图像帧生成神经纹理，我们称之为基于输入表达式和连续强度表达编码 CIEC 的动态神经纹理。我们的方法使用 3DMM 作为 3D 模型来采样动态神经纹理。 3DMM不覆盖牙齿区域，因此我们提出了一个牙齿子模块来完成牙齿的细节。结果和消融研究表明我们的方法在生成具有连续可控表情的高质量说话人脸视频方面的有效性。我们还通过结合现有的代表性方法设置了四种基线方法，并将它们与我们的方法进行比较。

Neural Texture Extraction and Distribution for Controllable Person Image Synthesis
Authors Yurui Ren, Xiaoqing Fan, Ge Li, Shan Liu, Thomas H. Li
我们处理可控人物图像合成任务，该任务旨在通过对身体姿势和外观的明确控制，从参考图像中重新渲染人类。观察到人物图像是高度结构化的，我们建议通过提取和分布参考图像的语义实体来生成所需的图像。为了实现这一目标，描述了一种基于双重注意力的神经纹理提取和分布操作。该操作首先从参考特征图中提取语义神经纹理。然后，它根据从目标姿势中学习到的空间分布来分配提取的神经纹理。我们的模型被训练来预测任意姿势的人类图像，这鼓励它提取代表不同语义实体外观的解耦和富有表现力的神经纹理。解开的表示进一步实现了显式外观控制。可以融合不同参考图像的神经纹理来控制感兴趣区域的外观。实验比较表明了所提出模型的优越性。

Hierarchical Text-Conditional Image Generation with CLIP Latents
Authors Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen
像 CLIP 这样的对比模型已被证明可以学习捕捉语义和风格的图像的鲁棒表示。为了利用这些表示来生成图像，我们提出了一个两阶段模型，先验模型在给定文本标题的情况下生成 CLIP 图像嵌入，而解码器生成以图像嵌入为条件的图像。我们表明，显式生成图像表示可以提高图像多样性，同时在照片真实感和标题相似性方面的损失最小。我们以图像表示为条件的解码器还可以生成图像的变体，同时保留其语义和风格，同时改变图像表示中缺少的非必要细节。此外，CLIP 的联合嵌入空间能够以零镜头方式进行语言引导的图像操作。

Baseline Computation for Attribution Methods Based on Interpolated Inputs
Authors Miguel Lerma, Mirtha Lucas
我们讨论了一种为归因方法找到表现良好的基线的方法，该方法通过在两个给定输入之间为神经网络提供一系列插值输入来工作。

Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity
Authors Weiyao Wang, Matt Feiszli, Heng Wang, Jitendra Malik, Du Tran
开放世界实例分割是将像素分组到对象实例中的任务，而无需任何预先确定的分类。这是具有挑战性的，因为最先进的方法依赖于从大型标记数据集中获得的显式类语义，并且域外评估性能显着下降。在这里，我们提出了一种新的掩码提议方法，即通用分组网络 GGN，在没有语义监督的情况下构建。我们的方法将像素亲和力的局部测量与实例级掩码监督相结合，产生一种训练方案，旨在使模型在数据多样性允许的情况下具有通用性。我们介绍了一种预测 Pairwise Affinities PA 的方法，这是一种学习到的像素对之间的局部关系。 PA 很好地概括了看不见的类别。从 PA 中，我们构建了一大组伪地面实况实例掩码与人类注释实例掩码相结合，我们训练 GGN，并在包括 COCO、LVIS、ADE20K 和 UVO 在内的各种基准上的开放世界实例分割上显着优于 SOTA。

AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal Reasoning
Authors Madeleine Grunde McLaughlin, Ranjay Krishna, Maneesh Agrawala
先前的基准已经分析了模型对视频问题的回答，以衡量视觉成分推理。 Action Genome Question Answering AGQA 就是这样的基准之一。 AGQA 提供具有平衡答案分布的训练测试拆分，以减少语言偏差的影响。然而，一些偏见仍然存在于几个 AGQA 类别中。我们介绍了 AGQA 2.0，这是该基准测试的一个版本，具有多项改进，其中大部分是更严格的平衡程序。

Out-of-distribution Detection with Deep Nearest Neighbors
Authors Yiyou Sun, Yifei Ming, Xiaojin Zhu, Yixuan Li
分布式 OOD 检测是在开放世界中部署机器学习模型的一项关键任务。基于距离的方法已经证明了前景，如果测试样本与分布 ID 数据相距较远，则它们会被检测为 OOD。然而，先前的方法对底层特征空间施加了很强的分布假设，这可能并不总是成立。在本文中，我们探讨了非参数最近邻距离在 OOD 检测中的有效性，这在文献中被很大程度上忽略了。与以前的工作不同，我们的方法没有强加任何分布假设，因此提供了更强的灵活性和通用性。我们在几个基准上展示了基于最近邻的 OOD 检测的有效性，并建立了卓越的性能。

DL4SciVis: A State-of-the-Art Survey on Deep Learning for Scientific Visualization
Authors Chaoli Wang, Jun Han
自 2016 年以来，我们见证了人工智能可视化 AI VIS 研究的巨大增长。然而，现有关于 AI VIS 的调查论文侧重于视觉分析和信息可视化，而不是科学可视化 SciVis。在本文中，我们调查了 SciVis 中相关的深度学习 DL 工作，特别是在 DL4SciVis 设计用于解决 SciVis 问题的 DL 解决方案的方向。为了保持专注，我们主要考虑处理标量和矢量场数据但不包括网格数据的作品。我们从领域设置、研究任务、学习类型、网络架构、损失函数和评估指标六个维度对这些工作进行分类和讨论。本文最后讨论了在讨论的维度上需要填补的剩余空白，以及我们作为一个社区需要解决的重大挑战。

WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma
Authors Chu Han, Xipeng Pan, Lixu Yan, Huan Lin, Bingbing Li, Su Yao, Shanshan Lv, Zhenwei Shi, Jinhai Mai, Jiatai Lin, Bingchao Zhao, Zeyan Xu, Zhizhen Wang, Yumeng Wang, Chunhui Lin, Lijian Mao, Min Wu, Luwen Duan, Jingsong Zhu, Dong Hu, Zijie Fang, Yang Chen, Yongbing Zhang, Yi Li, Yiwen Zou, Yiduo Yu, Xiaomeng Li, Haiming Li, Yanfen Cui, Guoqiang Han, Yan Xu, Jun Xu, Huihua Yang, Chunming Li, Zhenbing Liu, Cheng Lu, Xin Chen, Changhong Liang, Qingling Zhang, Zaiyi Liu
肺癌是全球癌症死亡的主要原因，腺癌 LUAD 是最常见的亚型。利用组织病理学图像的潜在价值可以促进肿瘤学的精准医学。组织分割是组织病理学图像分析的基本上游任务。现有的深度学习模型已经实现了卓越的分割性能，但需要足够的像素级标注，既耗时又昂贵。为了丰富 LUAD 的标签资源并减轻注释工作，我们组织了这个挑战 WSSS4LUAD，以呼吁对 LUAD 的组织病理学图像进行出色的弱监督语义分割技术。参与者必须设计算法以仅使用补丁级别标签来分割肿瘤上皮、肿瘤相关基质和正常组织。这一挑战包括来自 GDPH 的 67 个 WSI、47 个来自 TCGA 的 20 个训练集的 10,091 个补丁级别注释和超过 1.3 亿个标记像素的验证和测试集。所有标签均由循环管道中的病理学家在 AI 模型的帮助下生成，并由标签审查委员会进行检查。在 532 份报名中，28 支队伍在测试阶段提交了结果，提交数量超过 1000 份。最终，第一名的团队实现了 mIoU 0.8413，肿瘤 0.8389，基质 0.7931，正常 0.8919。根据顶级团队的技术报告，CAM 仍然是 WSSS 中最流行的方法。 Cutmix 数据增强已被广泛用于生成更可靠的样本。随着这一挑战的成功，我们相信带有补丁级别注释的 WSSS 方法可以取代传统的像素注释，同时减少注释工作。

Receding Neuron Importances for Structured Pruning
Authors Mihai Suteu, Yike Guo
结构化修剪通过识别和删除不重要的神经元来有效地压缩网络。虽然这可以通过对 BatchNorm 参数应用稀疏诱导正则化来优雅地实现，但 L1 惩罚会缩小所有缩放因子，而不仅仅是那些多余神经元的缩放因子。为了解决这个问题，我们引入了一个带有有限缩放参数的简单 BatchNorm 变体，在此基础上我们设计了一个新的正则化项，它只抑制低重要性的神经元。在我们的方法下，不必要的神经元的权重有效地后退，产生了一个极化的双峰重要性分布。我们表明，以这种方式训练的神经网络可以在更大程度上进行修剪，并且退化更少。我们在 CIFAR 和 ImagenNet 数据集上以不同的比率修剪了 VGG 和 ResNet 架构。

Deep Learning-based Framework for Automatic Cranial Defect Reconstruction and Implant Modeling
Authors Marek Wodzinski, Mateusz Daniol, Miroslaw Socha, Daria Hemmerling, Maciej Stanuch, Andrzej Skalski

TIB-VA at SemEval-2022 Task 5: A Multimodal Architecture for the Detection and Classification of Misogynous Memes
Authors Sherzod Hakimov, Gullal S. Cheema, Ralph Ewerth
在社交媒体上检测令人反感、仇恨的内容是一个具有挑战性的问题，每天都会影响许多在线用户。仇恨内容通常用于根据种族、性别、宗教和其他因素针对一群人。社交平台上对女性的仇恨或蔑视一直在增加。当文本和视觉模式结合形成一个单一的上下文时，厌恶女性的内容检测尤其具有挑战性，例如，嵌入在图像顶部的覆盖文本，也称为 meme。在本文中，我们提出了一种结合文本和视觉特征的多模态架构，以检测厌恶女性的 meme 内容。所提出的架构在 SemEval 2022 任务 5 MAMI 多媒体自动厌女症识别挑战中以团队名称 TIB VA 进行评估。

What Matters in Language Conditioned Robotic Imitation Learning
Authors Oier Mees, Lukas Hermann, Wolfram Burgard
机器人技术的一个长期目标是制造能够通过其机载传感器获得并仅通过自然语言指定的感知来执行广泛的日常任务的机器人。虽然最近通过利用像素的端到端学习在语言驱动的机器人技术方面取得了重大进展，但由于设置的潜在变化，没有明确且易于理解的过程来进行各种设计选择。在本文中，我们对从离线自由形式模仿数据集中学习语言条件策略的最关键挑战进行了广泛的研究。我们进一步确定了提高性能的架构和算法技术，例如机器人控制学习的分层分解、多模态变压器编码器、离散的潜在计划和对齐视频和语言表示的自我监督对比损失。通过将我们的调查结果与我们改进的模型组件相结合，我们能够提出一种新颖的方法，该方法在具有挑战性的语言条件下的长视野机器人操作 CALVIN 基准测试中显着优于现有技术。我们已经开源了我们的实现，以促进未来的研究，以学习以自然语言指定的方式连续执行许多复杂的操作技能。

ViViD++: Vision for Visibility Dataset
Authors Alex Junho Lee, Younggun Cho, Young sik Shin, Ayoung Kim, Hyun Myung
在本文中，我们提出了一个数据集，该数据集捕获针对不同亮度条件的各种视觉数据格式。虽然 RGB 相机提供了丰富且直观的信息，但照明条件的变化可能会导致基于视觉传感器的机器人应用发生灾难性故障。克服照明问题的方法包括开发更强大的算法或其他类型的视觉传感器，例如热像仪和事件相机。尽管具有替代传感器的潜力，但具有替代视觉传感器的数据集仍然很少。因此，我们提供了从替代视觉传感器记录的数据集，通过手持或安装在汽车上，在相同的空间但在不同的条件下重复。我们的目标是从共同对齐的替代视觉传感器中获取可见信息。我们的传感器系统通过测量红外耗散量、结构化反射深度和亮度的瞬时时间变化，更独立于可见光强度收集数据。我们提供这些测量以及惯性传感器和地面实况，用于在光照条件差的情况下开发强大的视觉 SLAM。

SRMD: Sparse Random Mode Decomposition
Authors Nicholas Richardson, Hayden Schaeffer, Giang Tran
信号分解和多尺度信号分析为时频分析提供了许多有用的工具。我们提出了一种通过构建频谱图的稀疏近似来分析时间序列数据的随机特征方法。随机化是在时间窗口位置和频率采样中进行的，这降低了整体采样和计算成本。频谱图的稀疏化导致时间频率簇之间的明显分离，这使得更容易识别固有模式，从而导致新的数据驱动模式分解。应用包括信号表示、异常值去除和模式分解。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

【AI视野·今日CV 计算机视觉论文速览 第243期】Thu, 14 Apr 2022

相关文章

【AI视野·今日CV 计算机视觉论文速览第243期】Thu, 14 Apr 2022