【AI视野·今日CV 计算机视觉论文速览第245期】Wed, 20 Apr 2022

时间：2022-08-14 11:30:00 abs轮速传感器各自的优缺点额头传感器 abs轮速传感器被动式002 no气敏传感器 mu视觉传感器目标跟随 et电子变压器

AI视野·今日CS.CV 计算机视觉论文速读
Wed, 20 Apr 2022
Totally 80 papers
??上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

??*****TokenFusion, 多模态集成transformer(from 清华大学)

??ELEVATER,基于语言增强的视觉方法评测工具 (from 微软)

??Dress Code, 虚拟试装高分辨率(from University of Modena and Reggio Emilia )

数据集：

https://github.com/aimagelab/dress-code

??GroupNet,基于多尺度超图的轨迹预测(from 上海交大 )

https://github.com/MediaBrain-SJTU/GroupNet

??图像数据的深度学习增强综述， (from 南京大学)

??深度学习可视化进展, (from Meta)

??CBUnet,在暗光图像中恢复颜色和强度的结果 (from 南京大学)

??水下数据集UID2021, (from 青岛大学)

水下数据集对比：

总结水下图像重建方法：

https://github.com/Hou-Guojia/UID2021

Daily Computer Vision Papers

Unsupervised detection of ash dieback disease (Hymenoscyphus fraxineus) using diffusion-based hyperspectral image clustering
Authors Sam L. Polk, Aland H. Y. Chan, Kangning Cui, Robert J. Plemmons, David A. Coomes, James M. Murphy
白蜡树枯死 Hymenoscyphus fraxineus 引入真菌病，导致欧洲白蜡树广泛死亡。采用监督机器学习技术，对白蜡树中的枯萎病进行了检测。但要了解景观规模的森林健康状况，需要准确的无监督方法。本文研究了无监督扩散的使用 VCA 辅助图像分割 D VIS 在剑桥附近的森林中，聚类算法检测到灰枯病。本工作中提出的无监督聚类与本场景整体准确性的监督分类高度重叠 71。

Dual-Domain Image Synthesis using Segmentation-Guided GAN
Authors Dena Bazazian, Andrew Calway, Dima Damen
我们从两个不同的领域引入了一种合成图像的分割指导方法。我们的双域模型合成的图像属于语义掩码中的一个域，而图像的其他部分则属于另一个域。少镜头是我们建立的 StyleGAN 在单镜头语义分割的成功之上，使用两个域所需的训练量最小化。该方法将几个镜头跨域 StyleGAN 结合潜在优化器，实现包含两个不同域特征的图像。我们域特定与双域合成图像之间的像素级别和激活，采用分割引导的感知损失。结果的定性和定量证明，我们的模型可以在眼睛、鼻子、嘴巴、头发和汽车引擎盖上合成双域图像，基于各种对象的面部、马、猫、汽车、自然领域、漫画、草图和基于部分的面具。

Real-Time Face Recognition System
Authors Adarsh Ghimire, Naoufel Werghi, Sajid Javed, Jorge Dias
在过去的几十年里，人们对人脸识别算法的兴趣迅速增加，甚至超过了人类水平。虽然取得了成就，但由于计算成本高，与实时性能要求高的系统实际集成是不可行的。

A comparison of different atmospheric turbulence simulation methods for image restoration
Authors Nithin Gopalakrishnan Nair, Kangfu Mei, Vishal M. Patel
通过将模糊和几何失真引入捕获场景，大气湍流降低了远程成像系统捕获的图像质量。在这些图像上执行计算机视觉算法，如面部识别和检测，会导致性能急剧下降。近年来，文献提出了基于深度学习的各种大气湍流缓解方法。这些方法通常使用合成图像进行训练，并在现实世界的图像上进行测试。因此，这些恢复方法的性能取决于训练网络的模拟类型。本文对图像恢复的有效性进行了系统的评价。特别是，我们使用化的面部图像组成的现实世界中，我们使用了六种模拟方法 LRFID 评估两种状态或最先进的恢复网络的性能。本文将为在该领域工作的研究人员和从业者提供指导，选择合适的数据生成模型来训练湍流缓解的深度模型。

Shallow camera pipeline for night photography rendering
Authors Simone Zini, Claudio Rota, Marco Buzzelli, Simone Bianco, Raimondo Schettini
作为 NTIRE2022 在夜间摄影渲染挑战的一部分，我们引入了一个相机管，在低光照下渲染视觉上令人愉悦的照片。鉴于任务的性质，目标是由专业摄影师口头定义的，而不是依赖于明确的地面现场图像，我们设计了一个结构浅、参数计数低的手工解决方案。我们的管道利用局部光增强器作为高动态范围校正的一种形式，然后对图像直方图进行全局调整以防止结果褪色。我们将图像去噪按比例应用于更容易感知的暗区，而不会丢失亮区的细节。基于深度卷积神经网络，该解决方案在比赛中排名第五，其偏好相当于其他参赛作品。

Rendering Nighttime Image Via Cascaded Color and Brightness Compensation
Authors Zhihao Li, Si Yi, Zhan Ma
图像信号处理 ISP 神经网络对相机成像至关重要 NN 白天场景广泛使用解决方案。夜间图像数据集和夜间照明特征的深度缺乏足够的了解，对使用现有 NN ISP 进行高质量渲染提出了巨大挑战。为了解决这个问题，我们首先构建了一个高分辨率夜间 RAW RGB NR2R 数据集，其中包含由专业人士注释的白平衡和色调映射。同时，为了最好地捕捉夜间照明光源的特性，我们开发了 CBUnet，这是一个两级 NN ISP，用于级联颜色和亮度属性的补偿。实验表明，与传统的 ISP 管道相比，我们的方法具有更好的视觉质量，并且在 NTIRE 2022 夜间摄影渲染挑战赛的两个轨道上分别由人民和专业摄影师的选择排名第二。

MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment
Authors Sidi Yang, Tianhe Wu, Shuwei Shi, Shanshan Lao Yuan Gong, Mingdeng Cao, Jiahao Wang, Yujiu Yang
无参考图像质量评估 NR IQA 旨在根据人类主观感知来评估图像的感知质量。不幸的是，现有的 NR IQA 方法远不能满足在基于 GAN 的失真图像上预测准确质量分数的需求。为此，我们提出了用于无参考图像质量评估 MANIQA 的多维注意力网络，以提高基于 GAN 的失真的性能。我们首先通过 ViT 提取特征，然后为了加强全局和局部交互，我们提出了 Transposed Attention Block TAB 和 Scale Swin Transformer Block SSTB。这两个模块分别在通道和空间维度上应用注意力机制。在这种多维度的方式下，模块在全局和局部地协同增加图像不同区域之间的交互。最后，应用补丁加权质量预测的双分支结构来根据每个补丁分数的权重预测最终分数。实验结果表明，MANIQA 在四个标准数据集 LIVE、TID2013、CSIQ 和 KADID 10K 上的性能大大优于最先进的方法。此外，我们的方法在 NTIRE 2022 感知图像质量评估挑战赛 Track 2 No Reference 的最终测试阶段排名第一。

Missingness Bias in Model Debugging
Authors Saachi Jain, Hadi Salman, Eric Wong, Pengchuan Zhang, Vibhav Vineet, Sai Vemprala, Aleksander Madry
缺失或输入中缺少特征是许多模型调试工具的基本概念。然而，在计算机视觉中，不能简单地从图像中移除像素。因此，人们倾向于诉诸启发式方法，例如将像素涂黑，这反过来可能会在调试过程中引入偏差。我们研究了这些偏差，特别是展示了基于转换器的架构如何能够更自然地实现缺失，从而解决这些问题并提高实践中模型调试的可靠性。

Learning to Imagine: Diversify Memory for Incremental Learning using Unlabeled Data
Authors Yu Ming Tang, Yi Xing Peng, Wei Shi Zheng
深度神经网络 DNN 在增量学习时会遭受灾难性遗忘，这极大地限制了其应用。虽然维护每个任务的少量样本（称为样本）可以在一定程度上减轻遗忘，但现有方法仍然受到样本数量少的限制，因为这些样本太少而无法承载足够的任务特定知识，因此遗忘仍然存在。为了克服这个问题，我们建议想象给定示例的不同对应物，指的是来自未标记数据的丰富的语义无关信息。具体来说，我们开发了一个可学习的特征生成器，通过基于来自示例的语义信息和来自未标记数据的语义无关信息自适应地生成示例的不同对应物来使示例多样化。我们引入语义对比学习以强制生成的样本与示例语义一致，并执行语义解耦对比学习以鼓励生成样本的多样性。多样化的生成样本可以有效防止 DNN 在学习新任务时遗忘。

Global-and-Local Collaborative Learning for Co-Salient Object Detection
Authors Runmin Cong, Ning Yang, Chongyi Li, Huazhu Fu, Yao Zhao, Qingming Huang, Sam Kwong
共显着对象检测 CoSOD 的目标是发现通常出现在包含两个或多个相关图像的查询组中的显着对象。因此，如何有效地提取图像间对应关系对于 CoSOD 任务至关重要。在本文中，我们提出了一种全局和局部协同学习架构，包括全局对应模型 GCM 和局部对应模型 LCM，以从全局和局部角度捕捉不同图像之间的综合图像间对应关系。首先，我们将不同的图像视为不同的时间片，并使用 3D 卷积直观地整合所有内部特征，这样可以更充分地提取全局组语义。其次，我们设计了一个成对相关变换PCT来探索成对图像之间的相似性对应关系，并结合多个局部成对对应关系来生成局部图像间关系。第三，通过全局和局部对应聚合 GLA 模块整合 GCM 和 LCM 的图像间关系，以探索更全面的图像间协作线索。最后，通过帧内和帧间加权融合AEWF模块自适应地集成帧内和帧间特征，以学习共显着特征并预测共显着图。

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution
Authors Wenbin Zou, Tian Ye, Weixin Zheng, Yunchen Zhang, Liang Chen, Yi Wu
最近，深度学习已成功应用于单幅图像超分辨率 SISR，性能显着。然而，大多数现有方法都侧重于构建具有大量层的更复杂的网络，这可能需要大量的计算成本和内存存储。为了解决这个问题，我们提出了一个轻量级的自校准高效变压器 SCET 网络来解决这个问题。 SCET的架构主要由自标定模块和高效transformer模块组成，其中自标定模块采用像素注意机制有效提取图像特征。为了进一步利用特征中的上下文信息，我们使用了一个高效的转换器来帮助网络在长距离上获得相似的特征，从而恢复足够的纹理细节。我们提供了关于整个网络的不同设置的综合结果。我们提出的方法比基线方法取得了更显着的性能。

Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing
Authors Thiemo Alldieck, Mihai Zanfir, Cristian Sminchisescu
我们提出了 PHORHUM，一种新颖的、端到端可训练的深度神经网络方法，用于仅给定单目 RGB 图像的逼真的 3D 人体重建。我们的像素对齐方法估计了详细的 3D 几何形状，并且首次估计了未着色的表面颜色和场景照明。观察到仅 3D 监督不足以进行高保真颜色重建，我们引入了基于补丁的渲染损失，可以对人类的可见部分进行可靠的颜色重建，并对不可见部分进行详细和合理的颜色估计。此外，我们的方法特别解决了先前工作在表示几何、反照率和照明效果方面的方法学和实际限制，在一个端到端模型中，因素可以被有效地解开。在广泛的实验中，我们证明了我们方法的多功能性和稳健性。

Towards Efficient Single Image Dehazing and Desnowing
Authors Tian Ye, Sixiang Chen, Yun Liu, Erkang Chen, Yuche Li
从图像中去除雨、雾和雪等不利天气条件是一个具有挑战性的问题。尽管当前针对特定条件的恢复算法取得了令人瞩目的进展，但它还不够灵活，无法处理各种退化类型。我们提出了一种高效且紧凑的图像恢复网络，名为 DAN Net Degradation Adaptive Neural Network 来解决这个问题，该网络由多个紧凑的专家网络和一个自适应门控神经网络组成。依靠紧凑的架构和三个新颖的组件，单个专家网络有效地解决了恶劣的冬季场景中的特定退化问题。基于专家混合策略，DAN Net 从每个输入图像中捕获退化信息，以自适应地调制特定任务专家网络的输出，以消除各种不利的冬季天气条件。具体来说，它采用轻量级的自适应门控神经网络来估计输入图像的门控注意力图，同时联合调度具有相同拓扑的不同任务特定专家来处理退化图像。这种新颖的图像恢复管道有效且高效地处理不同类型的恶劣天气场景。

Invertible Mask Network for Face Privacy-Preserving
Authors Yang Yang, Yiyang Huang, Ming Shi, Kejiang Chen, Weiming Zhang, Nenghai Yu
面部隐私保护是引起极大研究兴趣的热点之一。然而，现有的人脸隐私保护方法旨在造成人脸语义信息的缺失，无法保持原始人脸信息的可重用性。为实现处理后人脸的自然性和原始受保护人脸的可恢复性，提出基于Invertible Mask Network IMN的人脸隐私保护方法。在 IMN 中，我们首先引入了一个 Mask 网络来生成 Mask 人脸。然后，将Mask face放在被保护的脸上，生成masked face，其中mask face与Mask face没有区别。最后，可以将蒙面人脸从蒙面人脸中取出，并将恢复的人脸提供给授权用户，其中恢复的人脸与受保护的人脸在视觉上无法区分。

Less than Few: Self-Shot Video Instance Segmentation
Authors Pengwan Yang, Yuki M. Asano, Pascal Mettes, Cees G. M. Snoek
本文的目标是在运行时绕过对少数镜头视频理解的标记示例的需要。虽然被证明是有效的，但在许多实际视频设置中，即使标记几个示例似乎也不现实。随着时空视频理解中的细节水平以及注释的复杂性不断增加，这一点尤其正确。我们建议自动学习在给定查询的情况下找到合适的支持视频，而不是使用人类神谕执行少量镜头学习以提供一些密集标记的支持视频。我们称这种学习为自我学习，我们概述了一种简单的自我监督学习方法来生成一个非常适合相关样本的无监督检索的嵌入空间。为了展示这种新颖的设置，我们首次解决了自拍和少量镜头设置中的视频实例分割问题，其目标是在空间和时间域的像素级别上分割实例。我们提供了强大的基线性能，这些性能利用了一种新颖的基于变压器的模型，并表明自我学习甚至可以超越少数镜头，并且可以积极地结合起来以进一步提高性能。

OpenGlue: Open Source Graph Neural Net Based Pipeline for Image Matching
Authors Ostap Viniavskyi, Mariia Dobko, Dmytro Mishkin, Oles Dobosevych
我们展示了 OpenGlue 一个免费的开源图像匹配框架，它使用基于图神经网络的匹配器，灵感来自 SuperGlue 引用 sarlin20superglue。我们展示了包括额外的几何信息，例如局部特征尺度、方向和仿射几何（如果可用），例如对于 SIFT 特征，显着提高了 OpenGlue 匹配器的性能。我们研究了各种注意机制对准确性和速度的影响。我们还通过将本地描述符与上下文感知描述符相结合，提出了一个简单的架构改进。

Core Box Image Recognition and its Improvement with a New Augmentation Technique
Authors E.E. Baraboshkin, A.E. Demidov, D.M. Orlov, D.A. Koroteev
大多数用于自动全孔岩心图像分析描述、颜色、性质分布等的方法都是基于单独的岩心柱分析。岩心通常在一个盒子中成像，因为为每个岩心柱获取图像需要大量时间。这项工作提出了一种从芯盒中提取芯柱的创新方法和算法。芯盒成像的条件可能有很大不同。这种差异对于需要描述所有可能数据变化的大型数据集的机器学习算法来说是灾难性的。尽管如此，此类图像仍具有一些标准功能，例如盒子和核心。因此，我们可以使用本工作中描述的独特增强来模拟不同的环境。它被称为模板，如扩充 TLA 。该方法在各种环境中进行了描述和测试，并在传统数据以及传统数据和 TLA 数据混合训练的算法上比较了结果。与在没有 TLA 的数据上训练的算法不同，使用 TLA 数据训练的算法提供了更好的指标，并且可以在大多数新图像上检测核心。

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations
Authors Atsuhiro Noguchi, Xiao Sun, Stephen Lin, Tatsuya Harada
我们提出了一种无监督方法，用于关节物体的 3D 几何感知表示学习。尽管可以通过现有的 3D 神经表示使用显式姿态控制来渲染关节物体的逼真图像，但这些方法需要地面真实 3D 姿态和前景蒙版进行训练，而这些方法的获取成本很高。我们通过学习 GAN 训练的表示来消除这种需求。从随机姿势和潜在向量中，生成器被训练为通过对抗训练生成关节物体的逼真图像。为了避免 GAN 训练的大量计算成本，我们提出了一种基于三平面的铰接对象的有效神经表示，然后提出了一个基于 GAN 的无监督训练框架。

Detect-and-describe: Joint learning framework for detection and description of objects
Authors Addel Zafar, Umar Khalid
传统的对象检测回答了两个问题，即对象是什么以及对象在哪里。对象检测的哪些部分可以进一步细化，即什么类型、什么形状和什么材料等。这导致对象检测任务转移到对象描述范式。描述一个对象提供了额外的细节，使我们能够了解对象的特征和属性塑料船不仅仅是船，玻璃瓶不仅仅是瓶子。这些附加信息可以隐含地用于深入了解看不见的对象，例如未知物体是金属的，有轮子，这在传统的物体检测中是不可能的。在本文中，我们提出了一种同时检测对象并推断其属性的新方法，我们称之为检测和描述 DaD 框架。 DaD 是一种基于深度学习的方法，它也将对象检测扩展到对象属性预测。我们在 aPascal 训练集上训练我们的模型，并在 aPascal 测试集上评估我们的方法。我们在 aPascal 测试集上进行对象属性预测的接收器操作特征曲线 AUC 下面积达到 97.0。

Semi-supervised 3D shape segmentation with multilevel consistency and part substitution
Authors Chun Yu Sun, Yu Qi Yang, Hao Xiang Guo, Peng Shuai Wang, Xin Tong, Yang Liu, Heung Yeung Shum
缺乏细粒度的 3D 形状分割数据是开发基于学习的 3D 分割技术的主要障碍。我们提出了一种有效的半监督方法，用于从少数标记的 3D 形状和大量未标记的 3D 数据中学习 3D 分割。对于未标记的数据，我们提出了一种新的 emph 多级一致性损失，以在多级点级、部分级和分层级的 3D 形状的受扰动副本之间强制网络预测的一致性。对于标记的数据，我们开发了一种简单而有效的零件替换方案，以增加标记的 3D 形状，增加更多的结构变化以增强训练。我们的方法已在 PartNet 和 ShapeNetPart 上的 3D 对象语义分割任务以及 ScanNet 上的室内场景语义分割任务上得到广泛验证。它表现出优于现有半监督和无监督预训练 3D 方法的性能。

An Efficient Domain-Incremental Learning Approach to Drive in All Weather Conditions
Authors M. Jehanzeb Mirza, Marc Masana, Horst Possegger, Horst Bischof
尽管深度神经网络为自动驾驶提供了令人印象深刻的视觉感知性能，但它们对不同天气条件的鲁棒性仍然需要关注。在使这些模型适应变化的环境（例如不同的天气条件）时，它们很容易忘记先前学习的信息。这种灾难性的遗忘通常通过增量学习方法来解决，这些方法通常通过保留训练样本的内存库或为每个场景保留整个模型或模型参数的副本来重新训练模型。尽管这些方法显示出令人印象深刻的结果，但它们可能容易出现可扩展性问题，并且尚未显示它们在所有天气条件下对自动驾驶的适用性。在本文中，我们提出了 DISC Domain Incremental through Statistical Correction 一种简单的在线零遗忘方法，该方法可以增量学习新任务，即天气条件，而无需重新训练或昂贵的记忆库。我们为每个任务存储的唯一信息是统计参数，因为我们通过一阶和二阶统计的变化对每个域进行分类。因此，当每个任务到达时，我们只需将相应任务的统计向量插入并播放到模型中，它就会立即开始在该任务上表现良好。

UID2021: An Underwater Image Dataset for Evaluation of No-reference Quality Assessment Metrics
Authors Guojia Hou, Yuxuan Li, Huan Yang, Kunqian Li, Zhenkuan Pan
实现水下图像的主客观质量评价，对于水下视觉感知和图像视频处理具有重要意义。然而，由于缺乏具有公开可用数据集和可靠客观 UIQA 指标的全面人类主观用户研究，水下图像质量评估 UIQA 的发展受到限制。为了解决这个问题，我们建立了一个名为 UID2021 的大规模水下图像数据集，用于评估无参考 UIQA 指标。构建的数据集包含从各种来源收集的 60 幅多重降级水下图像，涵盖了 6 种常见的水下场景，即蓝景、蓝绿景、绿景、朦胧景、弱光景和浑浊景，以及相应的 900 个质量改进版本。采用十五种最先进的水下图像增强和恢复算法。 UID2021 的平均意见分数 MOS 也是通过对 52 个观察者使用配对比较排序方法获得的。在我们构建的数据集上测试了空中 NR IQA 和水下特定算法，以公平地比较性能并分析它们的优缺点。我们提出的 UID2021 数据集使人们能够全面评估 NR UIQA 算法，并为进一步研究 UIQA 铺平道路。

SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation
Authors Binhui Xie, Shuang Li, Mingjia Li, Chi Harold Liu, Gao Huang, Guoren Wang
域自适应语义分割试图通过利用在标记的源域上训练的模型对未标记的目标域做出令人满意的密集预测。一种解决方案是自我训练，它使用目标伪标签重新训练模型。许多方法倾向于减轻噪声伪标签，但是，它们忽略了具有相似语义概念的跨域像素之间的内在联系。因此，他们将难以处理跨领域的语义变化，从而导致歧视减少和泛化能力差。在这项工作中，我们提出了语义引导像素对比度 SePiCo，这是一种新颖的单阶段适应框架，它突出了单个像素的语义概念，以促进跨域的类判别和类平衡像素嵌入空间的学习。具体来说，为了探索正确的语义概念，我们首先研究了一个质心感知像素对比度，它使用整个源域或单个源图像的类别质心来指导判别特征的学习。考虑到语义概念可能缺乏类别多样性，然后我们开辟了一条分布视角的道路，以涉及足够数量的实例，即分布感知像素对比，其中我们从标记源的统计信息中近似每个语义类别的真实分布数据。此外，这样的优化目标可以通过隐含地包含无限数量的不相似对来推导出封闭形式的上限。大量实验表明，SePiCo 不仅有助于稳定训练，还可以产生判别特征，在白天和夜间场景中都取得了显着进步。

An Energy-Based Prior for Generative Saliency
Authors Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li
我们提出了一种新的基于能量的先验，用于生成显着性预测，其中潜在变量遵循基于信息的能量先验。显着性生成器和基于能量的先验都是通过基于马尔可夫链蒙特卡罗的最大似然估计联合训练的，其中潜变量的棘手后验和先验分布的采样由朗之万动力学执行。使用生成显着性模型，我们可以从图像中获得像素级的不确定性图，表明模型对显着性预测的置信度。与将潜在变量的先验分布定义为简单的各向同性高斯分布的现有生成模型不同，我们的模型使用基于能量的信息先验，它可以在捕获数据的潜在空间方面更具表现力。借助基于信息的能量先验，我们扩展了生成模型的高斯分布假设，以实现潜在空间的更具代表性的分布，从而实现更可靠的不确定性估计。我们将提出的框架应用于具有变换器和卷积神经网络主干的 RGB 和 RGB D 显着对象检测任务。

A qualitative investigation of optical flow algorithms for video denoising
Authors Hannes Fassold
良好的光流估计对于媒体行业、工业检测和汽车等应用领域中采用的许多视频分析和恢复算法至关重要。在这项工作中，我们研究了光流算法在集成到最先进的视频去噪算法时的定性性能。两种经典的光流算法，例如TV L1 以及最近基于深度学习的算法，如 RAFT 或 BMBC 将被考虑在内。

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models
Authors Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Yong Jae Lee, Houdong Hu, Zicheng Liu, Jianfeng Gao
从自然语言监督中学习视觉表示最近在许多开创性的工作中显示出巨大的希望。一般来说，这些语言增强的视觉模型展示了对各种数据集任务的强大可迁移性。然而，由于缺乏用于公平基准测试的易于使用的工具包，评估这些基础模型的可转移性仍然是一个挑战。为了解决这个问题，我们构建了语言增强视觉任务级别迁移的 ELEVATER 评估，这是第一个比较和评估预训练语言增强视觉模型的基准。几个亮点包括 i 数据集。作为下游评估套件，它由 20 个图像分类数据集和 35 个对象检测数据集组成，每个数据集都增加了外部知识。 ii 工具包。开发了一个自动超参数调整工具包，以确保模型适应的公平性。为了充分利用语言增强视觉模型的全部功能，提出了新颖的语言感知初始化方法来显着提高适应性能。 iii 指标。使用了多种评估指标，包括样本效率零镜头和少镜头以及参数效率线性探测和全模型微调。

Sensor Data Fusion in Top-View Grid Maps using Evidential Reasoning with Advanced Conflict Resolution
Authors Sven Richter, Frank Bieder, Sascha Wirges, Christoph Stiller
我们提出了一种新方法来组合基于异构传感器源估计的证据顶视图网格图。通常在这种情况下应用的 Dempster 组合规则会提供不希望的结果和高度冲突的输入。因此，我们使用更先进的证据推理技术，并通过对证据来源的可靠性建模来改进冲突解决。我们提出了一种数据驱动的可靠性估计，以使用 Kitti 360 数据集优化融合质量。我们将所提出的方法应用于激光雷达和立体相机数据的融合，并定性和定量地评估结果。

GroupNet: Multiscale Hypergraph Neural Networks for Trajectory Prediction with Relational Reasoning
Authors Chenxin Xu, Maosen Li, Zhenyang Ni, Ya Zhang, Siheng Chen
从过去的轨迹中揭开多个智能体之间的相互作用的神秘面纱是精确和可解释的轨迹预测的基础。然而，以前的工作只考虑具有有限关系推理的成对交互。为了促进更全面的关系推理交互建模，我们提出了 GroupNet，一种多尺度超图神经网络，它在交互捕获和表示学习方面都是新颖的。从交互捕获的角度来看，我们提出了一个可训练的多尺度超图来捕获多个组大小的成对和分组交互。从交互表示学习的角度来看，我们提出了一种可以端到端学习的三元素格式，并明确地推理一些关系因素，包括交互强度和类别。我们将 GroupNet 应用到基于 CVAE 的预测系统和先前最先进的预测系统中，用于通过关系推理来预测社会上似是而非的轨迹。为了验证关系推理的能力，我们用合成物理模拟进行实验，以反映捕捉群体行为、推理交互强度和交互类别的能力。为了验证预测的有效性，我们对三个真实世界的轨迹预测数据集进行了广泛的实验，包括 NBA、SDD 和 ETH UCY，并且我们表明，使用 GroupNet，基于 CVAE 的预测系统优于最先进的方法。

Binary Multi Channel Morphological Neural Network
Authors Theodore Aouad, Hugues Talbot
从理论的角度来看，神经网络，尤其是深度学习的研究相对较少。相反，数学形态学是一门具有扎实理论基础的学科。我们将这些领域结合起来，提出一种理论上更易于解释的新型神经架构。我们介绍了一个基于卷积神经网络的二元形态神经网络 BiMoNN。我们将其设计用于学习具有二进制输入和输出的形态网络。我们证明了 BiMoNN 和形态算子之间的等价性，我们可以用它来对整个网络进行二值化。

Modeling Missing Annotations for Incremental Learning in Object Detection
Authors Fabio Cermelli, Antonino Geraci, Dario Fontanel, Barbara Caputo
尽管最近在对象检测领域取得了进展，但常见的架构仍然不适合随着时间的推移增量检测新类别。他们很容易发生灾难性的遗忘，在没有原始训练数据的情况下更新参数时忘记了已经学过的内容。以前的工作在目标检测任务中扩展了标准分类方法，主要采用知识蒸馏框架。然而，我们认为目标检测引入了一个被忽视的额外问题。虽然属于新类的对象是通过注释来学习的，但如果没有为输入中可能仍然存在的其他对象提供监督，则模型会学习将它们与背景区域相关联。我们建议通过重新访问标准知识蒸馏框架来处理这些缺失的注释。我们的方法在 Pascal VOC 数据集的每个设置中都优于当前最先进的方法。我们进一步提出了实例分割的扩展，优于其他基线。在这项工作中，我们建议通过重新访问标准知识蒸馏框架来处理缺失的注释。我们表明，我们的方法在 Pascal VOC 2007 数据集的每个设置中都优于当前最先进的方法。

Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment
Authors Yue Cao, Zhaolin Wan, Dongwei Ren, Zifei Yan, Wangmeng Zuo
全参考 FR 图像质量评估 IQA 通过测量其与原始质量参考的感知差异来评估失真图像的视觉质量，并已广泛用于低级视觉任务。训练 FR IQA 模型需要具有平均意见得分 MOS 的成对标记数据，但收集起来既费时又麻烦。相比之下，未标记的数据可以很容易地从图像退化或恢复过程中收集，从而鼓励利用未标记的训练数据来提高 FR IQA 性能。此外，由于标记数据和未标记数据之间的分布不一致，未标记数据中可能会出现异常值，进一步增加了训练难度。在本文中，我们建议结合半监督和积极的未标记 PU 学习，以利用未标记数据，同时减轻异常值的不利影响。特别是，通过将所有标记数据视为正样本，PU 学习被用来识别负样本，即来自未标记数据的异常值。半监督学习 SSL 被进一步部署以通过动态生成伪 MOS 来利用未标记的正数据。我们采用包括参考和失真分支的双分支网络。此外，在参考分支中引入了空间注意力以更多地关注信息区域，切片 Wasserstein 距离用于稳健的差异图计算，以解决由 GAN 模型恢复的图像引起的错位问题。

Edge-enhanced Feature Distillation Network for Efficient Super-Resolution
Authors Yan Wang
随着最近卷积神经网络的大规模发展，已经提出了许多基于 CNN 的轻量级图像超分辨率方法，用于在边缘设备上进行实际部署。然而，大多数现有方法都集中在一个特定的方面网络或损失设计，这导致难以最小化模型大小。为了解决这个问题，我们总结了块设计、架构搜索和损失设计，以获得更有效的 SR 结构。在本文中，我们提出了一种名为 EFDN 的边缘增强特征蒸馏网络，以在资源受限的情况下保留高频信息。具体来说，我们基于现有的重新参数化方法构建了一个边缘增强卷积块。同时，我们提出边缘增强梯度损失来校准重新参数化的路径训练。实验结果表明，我们的边缘增强策略保留了边缘并显着提高了最终恢复质量。

Dynamic Point Cloud Denoising via Gradient Fields
Authors Qianjiang Hu, Wei Hu
3D动态点云提供现实世界物体或运动场景的离散表示，已广泛应用于沉浸式远程呈现、自动驾驶、监控等。但是，从传感器获取的点云通常会受到噪声的干扰，从而影响下游任务例如表面重建和分析。尽管已经为静态点云去噪做出了很多努力，但动态点云去噪仍在探索中。在本文中，我们提出了一种新的基于梯度场的动态点云去噪方法，通过估计梯度场来利用时间对应关系，这是动态点云处理和分析中的一个基本问题。梯度场是噪声点云的对数概率函数的梯度，我们在此基础上进行梯度上升，使每个点收敛到下面的干净表面。我们估计每个表面补丁的梯度并利用时间对应关系，其中利用经典力学中的刚性运动搜索时间对应的补丁。特别是，我们将每个补丁视为一个刚体，它通过力在相邻帧的梯度场中移动，直到达到平衡状态，即当补丁上的梯度总和达到 0 时。由于梯度会更小该点更靠近下垫面，平衡的补丁将很好地拟合下垫面，从而导致时间对应。最后，补丁中每个点的位置沿着从相邻帧中相应补丁平均的梯度方向更新。

Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition
Authors Ronghui Li, Lu Meng
手语是一种美丽的视觉语言，也是口语和听力障碍者使用的主要语言。然而，手语有很多复杂的表达方式，公众难以理解和掌握。手语识别算法将极大地促进听力受损者和正常人之间的交流。传统的连续手语识别往往采用基于卷积神经网络 CNN 和长短期记忆网络 LSTM 的序列学习方法。这些方法只能分别学习时空特征，无法学习手语复杂的时空特征。 LSTM 也很难学习长期依赖。为了缓解这些问题，本文提出了一种多视图时空连续手语识别网络。该网络由三部分组成。第一部分是 Multi View Spatial Temporal Feature Extractor Network MSTN ，可以直接提取 RGB 和骨架数据的时空特征第二部分是基于 Transformer 的手语编码器网络，可以学习长期依赖关系第三部分是 Connectionist时间分类 CTC 解码器网络，用于预测连续手语的整体含义。我们的算法在两个公共手语数据集 SLR 100 和 PHOENIX Weather 2014T RWTH 上进行了测试。因此，我们的方法在两个数据集上都取得了出色的性能。

Augmentation of Atmospheric Turbulence Effects on Thermal Adapted Object Detection Models
Authors Engin Uzun, Ahmet Anil Dursun, Erdem Akagunduz
大气湍流对远程观测系统的图像质量有降低的影响。由于温度、风速、湿度等各种因素的影响，湍流的特征是大气折射率的随机波动。这是一种可能出现在各种成像光谱中的现象，例如可见光或红外波段。在本文中，我们分析了大气湍流对热成像中目标检测性能的影响。我们使用几何湍流模型来模拟中等尺度热图像集（即 FLIR ADAS v2）上的湍流效应。我们将热域适应应用于最先进的对象检测器，并提出了一种数据增强策略来提高对象检测器的性能，该策略利用不同严重程度的湍流图像作为训练数据。

Proposal-free Lidar Panoptic Segmentation with Pillar-level Affinity
Authors Qi Chen, Sourabh Vora
我们为激光雷达全景分割提出了一个简单而有效的无提案架构。我们使用基于支柱的鸟瞰图表示在单个网络中联合优化语义分割和类不可知实例分类。实例分类头学习柱子之间的成对亲和力，以确定柱子是否属于同一个实例。我们进一步提出了一种局部聚类算法，通过合并语义分割和亲和力预测来传播实例 ID。

Multimodal Token Fusion for Vision Transformers
Authors Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang
为了解决单模态视觉任务，已经出现了许多变形器的改编，其中自我注意模块被堆叠以处理图像等输入源。直观地说，将多种模式的数据提供给视觉转换器可以提高性能，但内部模式的注意力权重也可能会被稀释，从而破坏最终的性能。在本文中，我们提出了一种多模态令牌融合方法 TokenFusion ，专为基于转换器的视觉任务量身定制。为了有效融合多种模态，TokenFusion 动态检测无信息标记，并用投影和聚合的模态间特征替换这些标记。还采用了剩余位置对齐，以便在融合后明确利用模态间对齐。 TokenFusion 的设计允许转换器学习多模态特征之间的相关性，而单模态转换器架构基本保持不变。

Shape-Aware Monocular 3D Object Detection
Authors Wei Chen, Jie Zhao, Wan Lei Zhao, Song Yuan Wu
通过单透视相机检测 3D 对象是一个具有挑战性的问题。由于其有效性和简单性，无锚和基于关键点的模型最近受到越来越多的关注。但是，这些方法中的大多数都容易受到遮挡和截断对象的影响。在本文中，提出了一种单级单目 3D 对象检测模型。实例分割头集成到模型训练中，使模型能够了解目标对象的可见形状。检测在很大程度上避免了来自目标对象周围无关区域的干扰。此外，我们还揭示了流行的基于 IoU 的评估指标，最初是为评估基于立体或 LiDAR 的检测方法而设计的，对单目 3D 对象检测算法的改进不敏感。针对单目 3D 目标检测模型提出了一种新的评估指标，即平均深度相似度 ADS。

NAFSSR: Stereo Image Super-Resolution Using NAFNet
Authors Xiaojie Chu, Liangyu Chen, Wenqing Yu
立体图像超分辨率旨在通过利用双目系统提供的互补信息来提高超分辨率结果的质量。为了获得合理的性能，大多数方法侧重于精细设计模块、损失函数等，从另一个角度利用信息。这具有增加系统复杂性的副作用，使研究人员难以评估新想法和比较方法。本文继承了一个强大而简单的图像恢复模型 NAFNet，用于单视图特征提取，并通过添加交叉注意力模块来融合视图之间的特征以适应双目场景。提出的立体图像超分辨率基线标记为 NAFSSR。此外，提出了训练测试策略以充分利用 NAFSSR 的性能。大量实验证明了我们方法的有效性。特别是，NAFSSR 在 KITTI 2012、KITTI 2015、Middlebury 和 Flickr1024 数据集上优于最先进的方法。凭借 NAFSSR，我们在 NTIRE 2022 立体图像超分辨率挑战赛中获得第一名。

Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing
Authors Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg m Demir
跨模态检索系统的开发可以基于任何模态的查询跨不同模态搜索和检索语义相关数据，在遥感遥感领域引起了极大的关注。在本文中，我们将注意力集中在跨模态文本图像检索上，其中来自一种模态（例如文本）的查询可以匹配到来自另一种模态（例如图像）的存档条目。 RS中大多数现有的跨模态文本图像检索系统需要大量标记的训练样本，并且也不允许快速和内存有效的检索。这些问题限制了现有跨模态检索系统在 RS 中大规模应用的适用性。为了解决这个问题，在本文中，我们介绍了一种新的无监督跨模态对比散列 DUCH 方法，用于 RS 中的文本图像检索。为此，所提出的 DUCH 由两个主要模块组成 1 特征提取模块，它提取两种模态的深度表示 2 散列模块，该模块学习从提取的表示中生成跨模态二进制散列码。我们引入了一种新颖的多目标损失函数，包括 i 对比目标，可以在模式内和模式间相似性中保持相似性 ii 跨模式表示一致性的两种模式强制执行的对抗性目标和 iii 生成哈希码的二值化目标。实验结果表明，所提出的 DUCH 优于最先进的方法。

CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-Resolution
Authors Guangwei Gao, Zixiang Xu, Juncheng Li, Jian Yang, Tieyong Zeng, Guo Jun Qi
最近，深度卷积神经网络 CNN 引导的人脸超分辨率方法通过与人脸先验联合训练，在恢复退化的人脸细节方面取得了很大进展。然而，这些方法有一些明显的局限性。一方面，多任务联合学习需要对数据集进行额外的标记，引入的先验网络会显着增加模型的计算成本。另一方面，CNN有限的感受野会降低重建人脸图像的保真度和自然度，导致重建图像不理想。在这项工作中，我们提出了一个高效的 CNN Transformer Cooperation Network CTCNet，用于人脸超分辨率任务，它使用多尺度连接的编码器解码器架构作为主干。具体来说，我们首先设计了一种新颖的局部全局特征协作模块 LGCM，该模块由面部结构注意单元 FSAU 和 Transformer 块组成，以同时促进局部面部细节和全局面部结构恢复的一致性。然后，我们设计了一个高效的局部特征细化模块LFRM来增强局部面部结构信息。最后，为了进一步改善面部细节的恢复，我们提出了一个多尺度特征融合单元 MFFU，以自适应地融合编码器过程中不同阶段的特征。

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer
Authors Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Ouyang Wanli, Xiaogang Wang
视觉转换器在许多计算机视觉任务中取得了巨大的成功。大多数方法通过将图像分割成规则和固定的网格并将每个单元视为一个标记来生成视觉标记。然而，在以人为中心的视觉任务中，并非所有区域都同等重要，例如，人体需要具有许多标记的精细表示，而图像背景可以由几个标记建模。为了解决这个问题，我们提出了一种新颖的 Vision Transformer，称为 Token Clustering Transformer TCFormer，它通过渐进式聚类合并令牌，其中令牌可以从不同位置以灵活的形状和大小合并。 TCFormer中的token不仅可以聚焦重要区域，还可以调整token形状以适应语义概念，并对包含关键细节的区域采用精细的分辨率，有利于捕获详细信息。大量实验表明，TCFormer 在不同的具有挑战性的以人为中心的任务和数据集上始终优于其同行，包括 COCO WholeBody 上的全身姿势估计和 3DPW 上的 3D 人体网格重建。

ActAR: Actor-Driven Pose Embeddings for Video Action Recognition
Authors Soufiane Lamghari, Guillaume Alexandre Bilodeau, Nicolas Saunier
视频中的人体动作识别 HAR 是视频理解的核心任务之一。基于视频序列，目标是识别人类执行的动作。虽然 HAR 在可见光谱中受到了很多关注，但对红外视频中的动作识别的研究却很少。由于序列中存在冗余且无法区分的纹理特征，因此在红外域中准确识别人类动作是一项极具挑战性的任务。此外，在某些情况下，挑战来自多个活跃人员的存在所引发的不相关信息，这些信息对实际感兴趣的行动没有贡献。因此，大多数现有方法都考虑了一个没有考虑这些挑战的标准范式，这在一定程度上是由于在某些情况下识别任务的模糊定义。在本文中，我们提出了一种新方法，该方法可以同时学习有效识别红外光谱中的人类动作，同时自动识别执行动作的关键参与者，而无需使用任何先验知识或显式注释。我们的方法由三个阶段组成。在第一阶段，执行基于光流的关键角色识别。然后对于每个关键演员，我们估计将指导帧选择过程的关键姿势。为了提高动作表示的质量，执行了尺度不变的编码过程以及嵌入式姿势过滤。

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery
Authors Liqiao Yang, Yang Liu, Kit Ian Kou
本文根据在变换域中以稀疏正则化为特征的低秩四元数矩阵优化来解决彩色图像补全问题。这项研究的灵感来自对不同信号类型（包括音频格式和图像）的认识，这些信号类型在各自的基础上具有固有的稀疏结构。由于彩色图像可以在四元数域中作为一个整体进行处理，我们在四元数离散余弦变换 QDCT 域中描述了彩色图像的稀疏性。此外，彩色图像固有的低秩结构的表示是四元数矩阵完成问题中的一个重要问题。为了实现更优越的低秩近似，在所提出的模型中采用了基于四元数的截断核范数 QTNN。此外，该模型通过基于该算法的乘法器 ADMM 的有效交替方向方法得到促进。

Self-Supervised Equivariant Learning for Oriented Keypoint Detection
Authors Jongmin Lee, Byungjin Kim, Minsu Cho
从图像中检测鲁棒的关键点是许多计算机视觉问题的一个组成部分，关键点的特征方向和尺度对于关键点的描述和匹配起着重要的作用。现有的基于学习的关键点检测方法依赖于标准平移等变 CNN，但通常无法针对几何变化检测可靠的关键点。为了学习检测稳健的面向关键点，我们引入了一个使用旋转等变 CNN 的自我监督学习框架。我们通过合成变换生成的图像对提出了密集的方向对齐损失，用于训练基于直方图的方向图。

Metamorphic Testing-based Adversarial Attack to Fool Deepfake Detectors
Authors Nyee Thoang Lim, Meng Yi Kuan, Muxin Pu, Mei Kuan Lim, Chun Yong Chong
Deepfakes 利用人工智能 AI 技术创建合成媒体，其中一个人的肖像被另一个人取代。越来越多的人担心 deepfakes 可能被恶意用于创建误导性和有害的数字内容。随着深度伪造变得越来越普遍，迫切需要深度伪造检测技术来帮助发现深度伪造媒体。目前的 deepfake 检测模型能够达到出色的准确度 90 。但是，它们中的大多数仅限于数据集场景，其中相同的数据集用于训练和测试。大多数模型在跨数据集场景中的泛化能力不够好，其中模型在来自其他来源的看不见的数据集上进行测试。此外，最先进的深度伪造检测模型依赖于基于神经网络的分类模型，这些模型已知容易受到对抗性攻击。出于对强大的 deepfake 检测模型的需求，本研究采用变质测试 MT 原则来帮助识别可能影响所检查模型的稳健性的潜在因素，同时克服该领域的测试预言问题。变形测试被特别选择作为测试技术，因为它符合我们的需求，即基于潜在的大输入域，使用来自主要黑盒组件的概率结果来解决基于学习的系统测试。我们对 MesoInception 4 和 TwoStreamNet 模型进行了评估，它们是最先进的 deepfake 检测模型。这项研究将化妆应用程序确定为可以欺骗深度伪造检测器的对抗性攻击。

Image Data Augmentation for Deep Learning: A Survey
Authors Suorong Yang, Weikang Xiao, Mengcheng Zhang, Suhan Guo, Jian Zhao, Furao Shen
深度学习在许多计算机视觉任务中取得了显著成果。深度神经网络通常依赖大量的训练数据来避免过度拟合。但是，现实世界应用程序的标记数据可能是有限的。

A Tour of Visualization Techniques for Computer Vision Datasets
Authors Bilal Alsallakh, Pamela Bhattacharya, Vanessa Feng, Narine Kokhlikyan, Orion Reblitz Richardson, Rahul Rajan, David Yan
我们调查了许多用于分析计算机视觉 CV 数据集的数据可视化技术。这些技术通过应用数据集级别的分析，帮助我们了解此类数据中的属性和潜在模式。我们提供了各种示例，说明此类分析如何帮助预测数据集属性对 CV 模型的潜在影响，并为适当缓解其缺点提供信息。

A Region-Based Deep Learning Approach to Automated Retail Checkout
Authors Maged Shoman, Armstrong Aboah, Alex Morehead, Ye Duan, Abdulateef Daud, Yaw Adu Gyamfi
一般而言，在传统零售店实现产品结账流程自动化是一项将对社会产生重大影响的任务。为此，可靠的深度学习模型能够实现自动产品计数以快速客户结账，可以使这一目标成为现实。在这项工作中，我们提出了一种新颖的、基于区域的深度学习方法，使用定制的 YOLOv5 对象检测管道和 DeepSORT 算法来自动化产品计数。我们对具有挑战性的真实世界测试视频的结果表明，我们的方法可以将其预测推广到足够准确的水平，并且运行时间足够快，以保证部署到真实世界的商业环境中。

VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance
Authors Katherine Crowson, Stella Biderman, Daniel Kornis, Dashiell Stander, Eric Hallahan, Louis Castricato, Edward Raff
从开放域文本提示生成和编辑图像是一项具有挑战性的任务，迄今为止需要昂贵且经过特殊训练的模型。我们为这两个任务展示了一种新颖的方法，该方法能够通过使用多模态编码器来指导图像生成，无需任何训练即可从具有显着语义复杂性的文本提示中生成高视觉质量的图像。我们在各种任务中演示了如何使用 CLIP 37 来引导 VQGAN 11 产生比先前不太灵活的方法（如 DALL E 38、GLIDE 33 和 Open Edit 24）更高的视觉质量输出，尽管没有针对所提出的任务进行培训。

A Novel Region Duplication Detection Algorithm Based on Hybrid Approach
Authors Kshipra Tatkare, Manoj Devare
由于高带宽互联网的容易获得，来自各种来源的数字图像无处不在。数字图像很容易被善意或恶意篡改。数字图像中预嵌入信息的不可用性使得在数字取证的情况下篡改检测过程更加困难。因此，被动图像篡改难以检测。有多种算法可用于检测图像篡改。然而，这些算法有一些缺点，因此无法检测到所有类型的篡改。在本文中，研究人员打算通过基于示例的方法来介绍图像篡改的类型及其检测技术。

Dress Code: High-Resolution Multi-Category Virtual Try-On
Authors Davide Morelli, Matteo Fincato, Marcella Cornia, Federico Landi, Fabio Cesari, Rita Cucchiara
基于图像的虚拟试穿力求将服装项目的外观转移到目标人物的图像上。之前的工作主要集中在上身衣服上，例如T 恤、衬衫和上衣，忽略全身或下半身物品。这一缺点源于一个主要因素，当前用于基于图像的虚拟试穿的公开可用数据集没有考虑到这种多样性，从而限制了该领域的进展。为了解决这个缺陷，我们引入了着装规范，其中包含多类别服装的图像。 Dress Code 比基于图像的虚拟试穿的公开可用数据集大 3 倍以上，并且具有 1024 x 768 的高分辨率配对图像和前视图、全身参考模型。为了生成具有高视觉质量和丰富细节的高清试图像，我们建议学习细粒度的判别特征。具体来说，我们利用语义感知鉴别器在像素级别而不是图像或补丁级别进行预测。广泛的实验评估表明，所提出的方法在视觉质量和定量结果方面超过了基线和最先进的竞争对手。

Spot the Difference: A Novel Task for Embodied Agents in Changing Environments
Authors Federico Landi, Roberto Bigazzi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara
具身人工智能是最近的一个研究领域，旨在创建可以在环境中移动和操作的智能代理。该领域的现有方法要求智能体在全新和未探索的场景中行动。但是，此设置与需要在同一环境中执行多个任务的实际用例相去甚远。即使环境随时间发生变化，代理仍然可以依靠其关于场景的全局知识，同时尝试使其内部表示适应环境的当前状态。为了朝着这个设置迈出一步，我们提出了 Spot the Difference 一项针对具体 AI 的新任务，其中代理可以访问过时的环境地图，并且需要在固定的时间预算内恢复正确的布局。为此，我们从现有的 3D 空间数据集开始收集一个新的占用地图数据集，并为单个环境生成许多可能的布局。该数据集可以在流行的 Habitat 模拟器中使用，并且完全符合在导航期间使用重建的占用地图的现有方法。此外，我们提出了一种探索策略，可以利用先前的环境知识，比现有代理更快、更有效地识别场景中的变化。

Inductive Biases for Object-Centric Representations of Complex Textures
Authors Samuele Papa, Ole Winther, Andrea Dittadi
了解哪些归纳偏差可能对自然场景的以对象为中心的表示的无监督学习有用是具有挑

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

【AI视野·今日CV 计算机视觉论文速览 第245期】Wed, 20 Apr 2022

相关文章

【AI视野·今日CV 计算机视觉论文速览第245期】Wed, 20 Apr 2022