【AI视野·今日CV 计算机视觉论文速览第241期】Wed, 1 Dec 2021

时间：2022-08-12 04:00:02 go显示前视传感器标定异常 token电流传感器 fmd68m连接器二极管模块mcd225 二极管5sdf08h6005

AI视野·今日CS.CV 计算机视觉论文速读
Wed, 1 Dec 2021 (showing first 100 of 112 entries)
Totally 100 papers
??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

Unsupervised Domain Adaptation: A Reality Check
Authors Kevin Musgrave, Serge Belongie, Ser Nam Lim
近年来，人们对无监督域的自适应 UDA 兴趣激增，产生了大量的新算法。然而，就像快速移动领域的情况一样，基线算法没有得到应有的测试。此外，很少有人关注验证方法，即在没有目标域标签的情况下估计模型准确性的方法。尽管有任何验证方法 UDA 训练 val 管道的关键部件，但仍然存在。本文通过大规模实验表明， 1 在 oracle 设置中，UDA 算法之间的准确性差比以前想象的要小，2 最先进的验证方法与准确性无关，3 UDA 算法之间的差异

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
Authors Lingchen Meng, Hengduo Li, Bor Chun Chen, Shiyi Lan, Zuxuan Wu, Yu Gang Jiang, Ser Nam Lim
视觉变换器意机制的视觉变换器最近在各种视觉任务中表现出色。在实现卓越性能的同时，它们仍然需要相对密集的计算成本。随着补丁、自注意力和转换器块数量的增加，计算成本将急剧增加。本文认为，由于图像之间的巨大差异，它们对补丁之间的长期依赖关系建模有不同的需求。为此，我们介绍了它 AdaViT，这是一个自适应计算框架，旨在以最低的成本提高视觉转换器的推理效率，学习导出使用策略，在每个输入的基础上使用哪些补丁、自注力和转换器块。图像识别精度下降。通过端到端与变压器主干联合优化，将轻量级决策网络连接到主干，即时做出决策。 ImageNet 大量的实验表明，与最先进的视觉变换器相比，我们的方法提高了效率 2 超过一倍，精度只下降了 0.8.在不同的计算预算条件下实现了良好的效率准确性权衡。

ATS: Adaptive Token Sampling For Efficient Vision Transformers
Authors Mohsen Fayyaz, Soroush Abbasi Kouhpayegani, Farnoush Rezaei Jafari, Eric Sommerlade, Hamid Reza Vaezi Joze, Hamed Pirsiavash, Juergen Gall
虽然最先进的视觉变换器模型在图像分类方面取得了令人满意的结果，但它们的计算成本非常高，需要很多 GFLOP。虽然视觉转换器可以通过减少网络中的标记数量来减少 GFLOP，但对所有输入图像没有最佳设置。因此，在这项工作中，我们引入了一个微不足道的自适应令牌采样 ATS 该模块可插入任何现有的视觉转换器架构。 ATS 对重要标记进行评分和自适应采样，以增强视觉变换器的能力。因此，令牌的数量不再是静态的，而是因为每个输入图像而异。通过将 ATS 作为电流转换器块中的附加层集成，我们可以将其转换为具有自适应数量令牌的更高效的视觉转换器。由于 ATS 它是一个无参数模块，可以作为即插即用模块添加到现成的预训练视觉转换器中，无需任何额外的训练就可以减少 GFLOP。但由于其微分设计，也可以进行训练 ATS 视觉转换器。我们通过在多个最先进的视觉转换器中添加模块来评估我们 ImageNet 数据集中的模块。

HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
Authors Yuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit H. Bermano
倒置真实图像 StyleGAN 潜在空间是一个很好的研究问题。然而，将现有方法应用于现实世界场景仍然是一个开放的挑战，因为重建和可编辑潜在空间区域之间的固有平衡可以准确地表示真实图像，通常受语义控制降级的影响。建议通过微调生成器将目标图像添加到潜在空间中性能良好的可编辑区域，以减少这种权衡。虽然很有前途，但这种微调方案对于普遍使用是不切实际的，因为它需要对每个新图像进行漫长的训练阶段。在这项工作中，我们将这种方法引入基于编码器的反演领域。我们提出了 HyperStyle，这是一种学会调整的超网络 StyleGAN 在潜在空间的可编辑区域中忠实地表达给定的图像。一种简单的调制方法需要训练一个以上 30 超网络有1亿个参数。通过仔细的网络设计，我们将其减少到与现有编码器一致。 HyperStyle 重建可与具有编码器近乎实时推理能力的优化技术相媲美。

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection
Authors Deepti Hegde, Vishal Patel
3D 对象检测网络倾向于倾向于他们训练的数据。由于与测试或目标数据的分布存在差距，评估与训练源数据不同的位置、条件或传感器捕获的数据集会导致模型性能下降。当前的域自适应方法要么假设在训练期间访问源数据，这可能是由于隐私或内存问题而无法使用的，要么需要一系列激光雷达帧作为输入。基于激光雷达于激光雷达的单帧方法 3D 该方法采用类型原型来减少伪标签噪声的影响。为了解决传统特征聚合方法在噪声标签下原型计算的局限性，我们使用转换器模块来识别与过度自信注释不正确对应的异常 ROI，并计算注意力集中的类原型。在迭代训练策略下，自训练过程中降低噪声伪标签相关损失的权重，从而细化。为了验证我们提出的方法的有效性，我们检查了与在大型、标签丰富的数据集（如 Waymo 开放数据集和 nuScenes）与训练网络相关的域转移，并在较小、标签较差的数据集(如 KITTI）反之亦然。

Leveraging The Topological Consistencies of Learning in Deep Neural Networks
Authors Stuart Synakowski, Fabian Benitez Quiroz, Aleix M. Martinez
最近开发了一些准确预测深度神经网络的方法 DNN 对于具体任务中的测试性能，给出底层拓扑结构的统计数据。然而，由于时间和内存的高计算成本，很难进一步应用这种新发现的观点。在这项工作中，我们定义了一种新的拓扑特征，可以准确地表示学习进度，并在运行过程中快速计算。此外，我们提出的拓扑特征很容易用于反向传播，这意味着它们可以纳入端到端训练。我们新开发的 DNN 实用拓扑表征允许一组额外的应用。首先，我们可以在没有测试集和高性能计算的情况下预测 DNN 的性能。我们也证明了我们是对的 DNN 拓扑表征在估计任务相似性方面是有效的。最后，我们展示了我们可以主动约束 DNN 诱导拓扑结构 DNN 学习。p>

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
Authors Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn
扩散概率模型 DPM 在图像生成方面取得了可与 GAN 相媲美的卓越品质。但与 GAN 不同的是，DPM 使用一组缺乏语义意义且不能作为其他任务有用表示的潜在变量。本文探讨了使用 DPM 进行表征学习的可能性，并试图通过自动编码提取输入图像的有意义且可解码的表征。我们的关键思想是使用可学习的编码器来发现高级语义，并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码为两部分的潜在代码，其中第一部分在语义上有意义且是线性的，第二部分捕获随机细节，允许近乎精确的重建。此功能支持目前阻碍基于 GAN 方法的具有挑战性的应用，例如对真实图像的属性操作。

DeDUCE: Generating Counterfactual Explanations Efficiently
Authors Benedikt H ltgen, Lisa Schut, Jan M. Brauner, Yarin Gal
当图像分类器输出错误的类标签时，查看图像中的哪些变化会导致正确分类会很有帮助。这是生成反事实解释的算法的目标。但是，没有易于扩展的方法来生成此类反事实。我们开发了一种新算法，以低计算成本为使用光谱归一化训练的大型图像分类器提供反事实解释。我们凭经验将此算法与文献中的基线进行比较，我们的新算法始终发现更接近原始输入的反事实。同时，这些反事实的真实性与基线相当。

BuildFormer: Automatic building extraction with vision transformer
Authors Libo Wang, Yuechi Yang, Rui Li
从高分辨率遥感图像中提取建筑物在众多地理空间应用中起着至关重要的作用，例如城市规划、人口统计、经济评估和灾害管理。随着深度学习技术的进步，深度卷积神经网络DCNNs多年来一直主导着自动建筑物提取任务。然而，DCNN 的局部特性限制了全局信息的提取，削弱了网络识别建筑物实例的能力。最近，Transformer 成为计算机视觉领域的热门话题，并在基本视觉任务（如图像分类、语义分割和对象检测）中实现了最先进的性能。受此启发，在本文中，我们提出了一种新的基于变压器的网络，用于从高分辨率遥感图像中提取建筑物，即 BuildFormer。

Image Style Transfer and Content-Style Disentanglement
Authors Sailun Xu, Jiazhi Zhang, Jiamei Liu
我们提出了一种学习图像的解开内容样式表示的方法，允许我们将图像外推到任何样式以及在任何样式对之间进行插值。通过在监督设置中增加数据集并施加三元组损失，我们确保由内容和样式表示编码的信息的分离。

Semi-Local Convolutions for LiDAR Scan Processing
Authors Larissa T. Triess, David Peter, J. Marius Z llner
许多应用程序，例如移动机器人或自动驾驶汽车，都使用 LiDAR 传感器来获取有关其三维环境的详细信息。许多方法使用类似图像的投影来有效地处理这些 LiDAR 测量值，并使用深度卷积神经网络来预测扫描中每个点的语义类别。空间平稳假设允许使用卷积。然而，激光雷达扫描在垂直轴上表现出很大的外观差异。因此，我们提出了半局部卷积 SLC，这是一种沿垂直维度减少权重共享的卷积层。我们首先研究了这种独立于任何其他模型更改的层的使用。

The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks
Authors Chintan Tundia, Rajiv Kumar, Om Damani, G. Sivakumar
深度学习在对象检测和实例分割以及其他计算机视觉任务方面取得了许多最新进展。这些进步导致基于深度学习的方法和相关方法在卫星图像的目标检测任务中得到广泛应用。在本文中，我们介绍了 MIS Check Dam，这是一个来自卫星图像的新淤地坝数据集，用于构建用于检测和绘制淤地坝的自动化系统，重点介绍用于农业的灌溉结构的重要性。我们回顾了一些最新的对象检测和实例分割方法，并评估它们在我们的新数据集上的性能。我们在各种网络配置和主干架构下评估了几种单阶段、两阶段和基于注意力的方法。

Robust Partial-to-Partial Point Cloud Registration in a Full Range
Authors Liang Pan, Zhongang Cai, Ziwei Liu
由于稀疏和嘈杂的测量、不完整的观察和大的变换，3D 对象的点云配准非常具有挑战性。在这项工作中，我们提出了图匹配共识网络 GMCNet，它估计了全范围 1 部分到部分点云注册 PPR 的姿势不变对应关系。为了对鲁棒点描述符进行编码，我们首先全面研究了各种几何特征的变换鲁棒性和噪声弹性。 2 然后，我们采用了一种新颖的变换鲁棒点变换器 TPT 模块来自适应地聚合关于结构关系的局部特征，这利用了手工制作的旋转不变 RI 特征和抗噪空间坐标。 3 基于分层图网络和图形建模的协同作用，我们提出了分层图形建模 HGM 架构来编码稳健的描述符，包括从 RI 特征学习的 ia 一元项和 ii 通过我们的 TPT 从不同尺度的相邻点关系编码的多个平滑项模块。此外，我们使用虚拟扫描构建了一个具有挑战性的 PPR 数据集 MVP RG。大量实验表明，GMCNet 在 PPR 方面优于以前最先进的方法。值得注意的是，GMCNet 为每个点云单独编码点描述符，而不使用跨上下文信息或用于训练的地面实况对应。

Human Imperceptible Attacks and Applications to Improve Fairness
Authors Xinru Hua, Huanzhong Xu, Jose Blanchet, Viet Nguyen
现代神经网络在涉及对象分类和图像生成的众多任务中至少能够像人类一样执行。然而，人类无法察觉的小扰动可能会显着降低训练有素的深度神经网络的性能。我们提供了一个分布式鲁棒优化 DRO 框架，该框架集成了基于人类的图像质量评估方法，以设计人类无法察觉但对深度神经网络具有显着破坏性的最佳攻击。通过大量实验，我们表明我们的攻击算法比其他最先进的人类无法察觉的攻击方法产生更好的质量，人类攻击不易察觉。此外，我们证明使用我们优化设计的人类不可察觉攻击的 DRO 训练可以提高图像分类中的组公平性。

MapReader: A Computer Vision Pipeline for the Semantic Exploration of Maps at Scale
Authors Kasra Hosseini, Daniel C.S. Wilson, Kaspar Beelen, Katherine McDonough
我们提供 MapReader，这是一个用 Python 编写的免费开源软件库，用于分析扫描或原生数字化的大型地图集。该图书馆通过将广泛的、同质的地图集转变为可搜索的主要来源，改变了历史学家使用地图的方式。 MapReader 允许几乎没有或没有计算机视觉专业知识的用户通过网络服务器检索地图 ii 预处理并将它们划分为补丁 iii 注释补丁 iv 训练、微调和评估深度神经网络模型以及 v 创建有关地图内容的结构化数据。我们展示了 MapReader 如何使历史学家能够解释大约 16,000 幅 19 世纪军械测量图的集合，大约 3,050 万个补丁，突出了将视觉标记转换为机器可读数据的挑战。我们提出了一个案例研究，重点是这些地图上描绘的英国铁路基础设施和建筑物。我们还展示了 MapReader 管道的输出如何链接到其他外部数据集，我们用这些数据集来评估以及丰富和解释结果。

Automated Damage Inspection of Power Transmission Towers from UAV Images
Authors Aleixo Cambeiro Barreiro, Clemens Seibold, Anna Hilsmann, Peter Eisert
基础设施检查是一项非常昂贵的任务，需要技术人员访问偏远或难以到达的地方。电力传输塔就是这种情况，它们位置稀少，需要训练有素的工人爬上它们以寻找损坏。最近，业界越来越多地使用无人机或直升机进行远程记录，让技术人员免于这项危险的任务。然而，这留下了分析大量图像的问题，这具有很大的自动化潜力。由于多种原因，这是一项具有挑战性的任务。首先，缺乏免费可用的训练数据和收集它的难度使这个问题复杂化。此外，构成损害的界限是模糊的，在数据标记中引入了一定程度的主观性。图像中不平衡的类分布也在增加任务的难度中起作用。本文解决了输电塔结构损坏检测的问题，解决了这些问题。

Low-light Image Enhancement via Breaking Down the Darkness
Authors Qiming Hu, Xiaojie Guo
在弱光环境中捕获的图像通常会出现复杂的退化。单纯的调光，难免会导致隐性噪点和色彩失真的爆发。为了从退化的输入中寻求满足照明、清洁度和真实感的结果，本文提出了一个受分而治之原则启发的新框架，大大减轻了退化纠缠。假设可以将图像分解为具有可能的噪声和颜色分量的纹理，则可以在调光的同时具体执行噪声去除和颜色校正。为此，我们建议将 RGB 空间中的图像转换为亮度色度图像。可调噪声抑制网络旨在消除增亮亮度中的噪声，估计照明图以指示噪声增强水平。增强的亮度进一步作为色度映射器生成逼真色彩的指导。进行了广泛的实验以揭示我们设计的有效性，并在几个基准数据集上从数量和质量上证明其优于最先进的替代方案。

NeuSample: Neural Sample Field for Efficient View Synthesis
Authors Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian
神经辐射场 NeRF 在表示 3D 场景和合成新视图方面显示出巨大的潜力，但 NeRF 在推理阶段的计算开销仍然很大。为了减轻负担，我们深入研究了 NeRF 的从粗到细的分层采样过程，并指出粗阶段可以用一个轻量级模块代替，我们将其命名为神经样本域。提议的样本场将光线映射到样本分布中，样本分布可以转换为点坐标并输入辐射场进行体绘制。整个框架被命名为 NeuSample。我们对 Realistic Synthetic 360 circ 和 Real Forward Facing 这两个流行的 3D 场景集进行了实验，结果表明 NeuSample 实现了比 NeRF 更好的渲染质量，同时享有更快的推理速度。

Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features
Authors Xiaoteng Zhou, Changli Yu, Xin Yuan, Haijun Feng, Yang Xu
在深海探测领域，声纳是目前唯一高效的远距离传感设备。复杂的水下环境，如噪声干扰、低目标强度或背景动态等，给声纳成像带来了诸多负面影响。其中，非线性强度问题极为普遍。也称为声传感器成像的各向异性，即自主水下航行器AUV携带声纳从不同角度探测同一目标时，图像对之间的强度变化有时非常大，这使得传统的匹配算法几乎无效.然而，图像匹配是导航、定位和地图绘制等综合任务的基础。因此，获得稳健而准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深度卷积特征的组合匹配方法。它有两个突出的优点，一是可以利用深度卷积特征来衡量声纳图像局部和全局位置的相似度；二是可以在声纳图像的关键目标位置进行局部特征匹配。该方法不需要复杂的人工设计，以端到端的方式完成非线性强度声纳图像的匹配任务。

RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising
Authors Michael Schelling, Pedro Hermosilla, Timo Ropinski
由于多路径干扰 MPI，飞行时间 ToF 相机会受到高水平噪声和失真的影响。虽然最近的研究表明 2D 神经网络在对 ToF 数据去噪方面能够胜过以往传统的最先进的 SOTA 方法，但几乎没有对基于学习的方法进行研究以直接利用深度图像中存在的 3D 信息。在本文中，我们提出了一种在 3D 空间中运行的迭代去噪方法，该方法旨在通过启用 3D 点卷积来校正沿视图方向的点位置来学习 2.5D 数据。由于此任务中标记的真实世界数据很少，因此我们使用未标记的真实世界数据的自训练方法进一步训练我们的网络，以解释真实世界的统计数据。

ESL: Event-based Structured Light
Authors Manasi Muglikar, Guillermo Gallego, Davide Scaramuzza
事件相机是仿生传感器，与标准相机相比具有显着优势，例如低延迟、高时间分辨率和高动态范围。我们提出了一种使用事件相机的新型结构光系统来解决准确和高速深度感应的问题。我们的设置由一个事件相机和一个激光点投影仪组成，它们在 16 毫秒内以光栅扫描模式均匀照亮场景。以前的方法相互独立地匹配事件，因此它们在存在信号延迟和抖动的情况下以高扫描速度提供嘈杂的深度估计。相比之下，我们优化了一个旨在利用事件相关性的能量函数，称为时空一致性。由此产生的方法对事件抖动具有鲁棒性，因此在更高的扫描速度下表现更好。

Regularized directional representations for medical image registration
Authors Vincent Jaouen, Pierre Henri Conze, Guillaume Dardenne, Julien Bert, Dimitris Visvikis
在图像配准中，许多努力致力于开发流行的标准化互信息标准的替代方案。在进行这些努力的同时，越来越多的工作表明，通过对齐图像的结构表示而不是图像本身，也可以显着提高配准精度。沿着这条研究路径，我们提出了一种基于正则化矢量场对齐的单模态和多模态图像配准的新方法，这些矢量场来自结构信息，例如梯度矢量流场，我们称之为 textit 矢量场相似性的技术。通过将矢量场相似性替换为基于强度的配准，我们的方法可以以简单的方式与任何现有的配准框架相结合。

PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images
Authors Stefano Zorzi, Shabab Bazrafkan, Stefan Habenschuss, Friedrich Fraundorfer
大多数最先进的实例分割方法产生二进制分割掩码，然而，地理和制图应用程序通常需要提取对象的精确矢量多边形，而不是光栅化输出。本文介绍了 PolyWorld，这是一种神经网络，可直接从图像中提取建筑顶点并正确连接它们以创建精确的多边形。该模型使用图神经网络预测每对顶点之间的连接强度，并通过解决可微的最优传输问题来估计分配。此外，通过最小化组合分割和多边形角度差损失来优化顶点位置。 PolyWorld 在建筑多边形化方面明显优于最先进的技术，不仅取得了显着的定量结果，而且还产生了视觉上令人愉悦的建筑多边形。

FENeRF: Face Editing in Neural Radiance Fields
Authors Jingxiang Sun, Xuan Wang, Yong Zhang, Xiaoyu Li, Qi Zhang, Yebin Liu, Jue Wang
以前的人像图像生成方法大致分为两类：2D GAN 和 3D 感知 GAN。 2D GAN 可以生成高保真人像，但视图一致性较低。 3D 感知 GAN 方法可以保持视图一致性，但其生成的图像不可本地编辑。为了克服这些限制，我们提出了 FENeRF，这是一种 3D 感知生成器，可以生成视图一致且可本地编辑的肖像图像。我们的方法使用两个解耦的潜在代码在具有共享几何结构的空间对齐 3D 体积中生成相应的面部语义和纹理。受益于这种底层 3D 表示，FENeRF 可以联合渲染边界对齐图像和语义掩码，并使用语义掩码通过 GAN 反演来编辑 3D 体积。我们进一步表明，可以从广泛使用的单目图像和语义掩码对中学习这种 3D 表示。此外，我们揭示了联合学习语义和纹理有助于生成更精细的几何形状。

Spatio-Temporal Multi-Flow Network for Video Frame Interpolation
Authors Duolikun Danier, Fan Zhang, David Bull
视频帧插值 VFI 目前是一个非常活跃的研究课题，其应用涵盖计算机视觉、后期制作和视频编码。 VFI 可能极具挑战性，特别是在包含大运动、遮挡或动态纹理的序列中，现有方法无法提供感知上稳健的插值性能。在这种情况下，我们提出了一种新颖的基于深度学习的 VFI 方法 ST MFNet，它基于时空多流架构。 ST MFNet 采用新的多尺度多流预测器来估计多对一中间流，这些中间流与传统的一对一光流相结合以捕获大型和复杂的运动。为了增强各种纹理的插值性能，还采用 3D CNN 来对扩展时间窗口上的内容动态进行建模。此外，ST MFNet 已经在 ST GAN 框架内进行了训练，该框架最初是为纹理合成而开发的，目的是进一步提高感知插值质量。与 14 种最先进的 VFI 算法相比，我们的方法已经过全面评估，清楚地表明 ST MFNet 在各种有代表性的测试数据集上始终优于这些基准测试，对于包括大运动和动态纹理在内的情况，PSNR 显着提高了 1.09dB。

Analysis of Multiscale Wavelet-based Fractional Gradient-Anisotropic Diffusion Fusion for single hazy and underwater image enhancement
Authors Uche A. Nnolim
本报告介绍了基于多尺度小波的单图像去雾和水下图像增强方案的结果。除了模糊图像的全局增强外，该方案还快速且高度本地化。基于 PDE 的公式可实现额外的多功能性，因为迭代性质为各种类型的图像提供了更大的灵活性。

Natural Scene Text Editing Based on AI
Authors Yujie Zhang
在录制的情况下，文本信息对于场景解释和决策至关重要。直接在图像上编辑文本的能力具有许多优点，包括纠错、文本恢复和图像可重用性。这项研究展示了如何在字母和数字级别更改图像文本。我设计了一个两部分字母数字网络 LDN 来编码和解码数字图像，以及学习并将源字符的字体样式转换为目标字符。

Consensus Synergizes with Memory: A Simple Approach for Anomaly Segmentation in Urban Scenes
Authors Jiazhong Cen, Zenkun Jiang, Lingxi Xie, Qi Tian, Xiaokang Yang, Wei Shen
异常分割是安全关键应用的关键任务，例如城市场景中的自动驾驶，其目标是检测具有在训练期间看不见的类别的不分布 OOD 对象。这项任务的核心挑战是如何区分分布样本和 OOD 样本中的困难，这一点尚未明确讨论。在本文中，我们提出了一种名为 Consensus Synergizes with Memory CosMe 的新颖而简单的方法来应对这一挑战，其灵感来自心理学发现，即群体在记忆任务上的表现优于个人。主要思想是 1 构建一个记忆库，其中包含从预训练分割模型的多层中提取的可见原型和 2 训练一个模仿预训练模型行为的辅助模型，然后测量它们的中级特征的一致性作为与记忆库协同作用的补充线索。 CosMe 擅长区分hard in distribution examples 和OOD samples。

Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup
Authors Siyuan Li, Zicheng Liu, Di Wu, Zihan Liu, Stan Z. Li
Mixup 是一种流行的深度神经网络数据相关增强技术，它包含两个子任务，mixup 生成和分类。社区通常将混合限制为监督学习 SL，并且生成子任务的目标固定在采样对上，而不是考虑整个数据流形。为了克服这些限制，我们系统地研究了两个子任务的目标，并为 SL 和自监督学习 SSL 场景提出了 Scenario Agostic Mixup，称为 SAMix。具体来说，我们假设并验证混合生成的核心目标是优化受其他类全局歧视的两个类之间的局部平滑度。基于这一发现，提出了eta平衡混合损失来对两个子任务进行互补训练。同时，生成子任务被参数化为一个可优化模块 Mixer，它利用注意力机制生成没有标签依赖的混合样本。

Large-Scale Video Analytics through Object-Level Consolidation
Authors Daniel Rivas, Francesc Guim, Jord Polo, David Carrera
随着安装的摄像头数量增加，处理和分析这些摄像头捕获的所有图像所需的计算资源也在增加。视频分析支持新的用例，例如智能城市或自动驾驶。同时，它敦促服务提供商安装额外的计算资源来满足需求，而严格的延迟要求将计算推向网络的末端，形成了一组地理分布和异构的计算位置，共享且资源受限。这种共享和分布式位置的景观迫使我们设计新技术，可以优化和分配所有可用位置的工作，理想情况下，使计算需求相对于安装的摄像头数量呈亚线性增长。在本文中，我们介绍 FoMO Focus on Movement Objects。该方法通过对场景图像进行预处理、过滤掉空白区域并将来自多个摄像头的感兴趣区域组合成单个图像作为预训练对象检测模型的输入，从而有效地优化多摄像头部署。

A Softmax-free Loss Function Based on Predefined Optimal-distribution of Latent Features for CNN Classifier
Authors Qiuyu Zhu, Xuewen Zu
在模式分类领域，卷积神经网络分类器的训练大多是端到端的学习，损失函数是对网络最终输出后验概率的约束，所以Softmax的存在是必不可少的。在端到端学习的情况下，通常没有有效的损失函数完全依赖中间层的特征来限制学习，导致样本潜在特征的分布不是最优的，所以在分类准确率。本文基于Predefined Evenly Distributed Class Centroids PEDCC的概念，提出了一种基于潜在特征的预定义最优分布的Softmax free loss函数POD Loss。损失函数只限制样本的潜在特征，包括样本的潜在特征向量与预定义的均匀分布类的中心之间的余弦距离，以及样本的潜在特征之间的相关性。最后，余弦距离用于分类。与常用的Softmax Loss和典型的Softmax相关的AM Softmax Loss、COT Loss和PEDCC Loss相比，在典型网络上的几个常用数据集上的实验表明，POD Loss的分类性能总是更好，更容易收敛。

FMD-cGAN: Fast Motion Deblurring using Conditional Generative Adversarial Networks
Authors Jatin Kumar, Indra Deep Mastan, Shanmuganathan Raman
在本文中，我们提出了一种快速运动去模糊条件生成对抗网络 FMD cGAN，它有助于对单个图像进行盲运动去模糊。 FMD cGAN 在对图像进行去模糊后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样，GAN 也受到模型尺寸参数和计算量大的影响。在移动和机器人等资源受限设备上部署模型并不容易。借助由深度可分离卷积组成的基于 MobileNet 的架构，我们减少了模型大小和推理时间，而不会降低图像质量。更具体地说，与最接近的竞争对手相比，我们将模型尺寸缩小了 3 60 倍。由此产生的压缩去模糊 cGAN 比其最接近的竞争对手更快，甚至定性和定量结果优于各种最近提出的最先进的盲运动去模糊模型。我们还可以将我们的模型用于实时图像去模糊任务。

The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration
Authors Bingyuan Liu, Ismail Ben Ayed, Adrian Galdran, Jose Dolz
尽管深度神经网络的性能占主导地位，但最近的工作表明，它们校准不当，导致预测过于自信。由于训练期间交叉熵的最小化，过拟合可能会加剧错误校准，因为它提高了预测的 softmax 概率以匹配一个热标签分配。这会产生正确类的 pre softmax 激活，该激活明显大于其余激活。最近的文献证据表明，嵌入预测熵的隐式或显式最大化的损失函数产生了最先进的校准性能。我们提供了当前最先进校准损失的统一约束优化视角。具体来说，这些损失可以被视为线性惩罚或拉格朗日对 logit 距离施加等式约束的近似值。这指出了此类潜在等式约束的一个重要限制，其随后的梯度不断推动非信息解决方案，这可能会阻止在基于梯度的优化过程中在判别性能和模型校准之间达到最佳折衷。根据我们的观察，我们提出了一个基于不等式约束的简单而灵活的概括，它对 logit 距离施加了可控的余量。对各种图像分类、语义分割和 NLP 基准的综合实验表明，我们的方法在网络校准方面为这些任务设置了新的最先进的结果，而不会影响判别性能。

A Face Recognition System's Worst Morph Nightmare, Theoretically
Authors Una M. Kelly, Raymond Veldhuis, Luuk Spreeuwers
已经表明，人脸识别系统 FRS 容易受到变形攻击，但大多数研究都集中在基于地标的变形上。生成变形的第二种方法使用生成对抗网络，这会产生令人信服的真实面部图像，这对 FRS 来说几乎与基于地标的攻击一样具有挑战性。我们提出了一种方法来创建第三种不同类型的变形，其优点是更容易训练。我们介绍了 textit 最坏情况变形的理论概念，这是对固定 FRS 最具挑战性的变形。对于 FRS 潜在空间中的一组图像和相应的嵌入，我们使用从嵌入空间回图像空间的映射生成近似这些最坏情况变形的图像。虽然生成的图像不像其他变形那样具有挑战性，但它们可以为未来关于变形攻击检测 MAD 方法和 FRS 弱点的研究提供有价值的信息。 MAD 的方法需要在更多样化的形态数据库上进行验证。

Probabilistic Estimation of 3D Human Shape and Pose with a Semantic Local Parametric Model
Authors Akash Sengupta, Ignas Budvytis, Roberto Cipolla
本文解决了从 RGB 图像估计 3D 人体形状和姿势的问题。该任务的一些最新方法预测以输入图像为条件的人体模型参数的概率分布。这是由问题的不适定性质引起的，其中多个 3D 重建可能与图像证据相匹配，特别是当身体的某些部分被局部遮挡时。然而，广泛使用的身体模型中的身体形状参数，例如SMPL 控制整个身体表面的全局变形。这些全局形状参数的分布无法有意义地捕捉与局部遮挡身体部位相关的形状估计中的不确定性。相比之下，我们提出了一种方法，i 以语义身体测量的形式预测局部身体形状的分布，ii 使用线性映射将身体测量的局部分布转换为 SMPL 形状参数的全局分布。我们表明，我们的方法在 SSP 3D 数据集上的身份相关身体形状估计精度和磁带测量人类的私人数据集方面优于当前最先进的技术，通过概率地结合从主体的多个图像预测的局部身体测量分布

CT-block: a novel local and global features extractor for point cloud
Authors Shangwei Guo, Jun Li, Zhengchao Lai, Xiantong Meng, Shaokun Han
点云上的深度学习正在不断发展。将点与其邻居分组并对其进行类似卷积的操作可以学习点云的局部特征，但这种方法在提取长距离全局特征方面很弱。在整个点云上执行基于注意力的变换器可以有效地学习它的全局特征，但这种方法很难提取局部细节特征。在本文中，我们提出了一种新的模块，可以同时提取和融合局部和全局特征，称为 CT 块。 CT块由两个分支组成，其中字母C代表卷积分支，字母T代表变压器分支。卷积分支对分组的邻居点进行卷积以提取局部特征。同时，transformer 分支对整个点云进行偏移注意力处理以提取全局特征。通过CT块中的特征传输元件构建的桥梁，局部特征和全局特征在学习过程中相互引导，有效融合。我们应用 CT 块构建点云分类和分割网络，并通过几个公共数据集评估它们的性能。

Reconstruction Student with Attention for Student-Teacher Pyramid Matching
Authors Shinji Yamada, Kazuhiro Hotta
异常检测和定位是计算机视觉中的重要问题。最近，卷积神经网络CNN已被用于视觉检查。特别是异常样本的稀缺性增加了这项任务的难度，基于无监督学习的方法正在引起人们的关注。我们专注于学生教师特征金字塔匹配 STPM，它可以仅从具有少量 epoch 的正常图像进行训练。在这里，我们提出了一种强大的方法来弥补 STPM 的缺点。提出的方法由两个学生和两个教师组成，一对学生教师网络与 STPM 相同。另一个学生教师网络具有重构正常产品特征的作用。通过从异常图像重建正常产品的特征，可以通过获取它们之间的差异来更准确地检测异常。新的学生教师网络使用注意力模块和与原始 STPM 不同的教师网络。注意机制用于成功重建输入图像中的正常区域。不同的教师网络防止查看与原始 STPM 相同的区域。从两个学生教师网络获得的六个异常图用于计算最终的异常图。

Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding
Authors Abdullah Hamdi, Silvio Giancola, Bernard Ghanem
多视图投影方法在 3D 理解任务（如 3D 分类和分割）上表现出良好的性能。然而，目前尚不清楚如何将这种多视图方法与广泛可用的 3D 点云相结合。以前的方法使用未学习的启发式方法在点级别组合特征。为此，我们引入了多视点云 Voint cloud 的概念，将每个 3D 点表示为从多个视点提取的一组特征。这种新颖的 3D Voint 云表示结合了 3D 点云表示的紧凑性和多视图表示的自然视图感知。自然地，我们可以为这种新表示配备卷积和池化操作。我们部署了具有理论上建立的函数形式的 Voint 神经网络 VointNet 来学习 Voint 空间中的表示。我们的新颖表示在 ScanObjectNN、ModelNet40 和 ShapeNet Core55 上实现了 3D 分类和检索的最先进性能。此外，我们在 ShapeNet Parts 上实现了具有竞争力的 3D 语义分割性能。

ISNAS-DIP: Image-Specific Neural Architecture Search for Deep Image Prior
Authors Metin Ersin Arican, Ozgur Kara, Gustav Bredell, Ender Konukoglu
最近的工作表明，卷积神经网络 CNN 架构对较低频率具有频谱偏差，这已被用于深度图像先验 DIP 框架中的各种图像恢复任务。网络在 DIP 框架中施加的归纳偏置的好处取决于架构。因此，研究人员研究了如何自动搜索以确定性能最佳的模型。然而，常见的神经架构搜索 NAS 技术是资源和时间密集型的。此外，最好的模型是为整个图像数据集确定的，而不是单独为每个图像确定的，这将非常昂贵。在这项工作中，我们首先表明 DIP 框架中的最佳神经架构是图像相关的。利用这一见解，我们然后为 DIP 框架提出了一种图像特定的 NAS 策略，该策略所需的训练比典型的 NAS 方法少得多，从而有效地实现了图像特定的 NAS。对于给定的图像，噪声被馈送到大量未经训练的 CNN，并使用各种指标将它们的输出功率谱密度 PSD 与损坏图像的输出功率谱密度进行比较。基于此，选择并训练一小群图像特定架构来重建损坏的图像。在这个队列中，选择重建最接近重建图像平均值的模型作为最终模型。我们通过 1 证明其在 DIP 的 NAS 数据集上的性能来证明所提出策略的有效性，该数据集包括来自特定搜索空间的 500 个模型 2 对图像去噪、修复和超分辨率任务进行广泛的实验。

Seeking Salient Facial Regions for Cross-Database Micro-Expression Recognition
Authors Xingxun Jiang, Yuan Zong, Wenming Zheng
本文重点研究跨数据库微表情识别的研究，其中训练和测试的微表情样本属于不同的微表情数据库。训练和测试微表达特征之间不匹配的特征分布会降低大多数表现良好的微表达方法的性能。为了处理跨数据库微表情识别，我们提出了一种新的域适应方法，称为传输组稀疏回归 TGSR。 TGSR 学习一个稀疏回归矩阵，用于选择显着的面部局部区域以及训练集和测试集的对应关系。我们在 CASME II 和 SMIC 数据库中评估我们的 TGSR 模型。

ZZ-Net: A Universal Rotation Equivariant Architecture for 2D Point Clouds
Authors Georg B kman, Fredrik Kahl, Axel Flinth
在本文中，我们关注的是二维点云数据的旋转等方差。我们描述了一组特定的函数，能够逼近任何连续旋转等变和置换不变函数。

MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning
Authors Sara Atito, Muhammad Awais, Ammarah Farooq, Zhenhua Feng, Josef Kittler
自监督预训练是自然语言处理模型的首选方法，并且在许多视觉任务中迅速普及。最近，自监督预训练在许多下游视觉应用中表现优于监督预训练，标志着该领域的一个里程碑。这种优势归因于训练图像标记不完整的负面影响，这些图像传达了多个概念，但使用单个主导类标签进行了注释。尽管自监督学习 SSL 原则上不受此限制，但促进 SSL 的借口任务的选择通过将学习过程推向单一概念输出而使这一缺点永久化。本研究旨在研究在不使用标签的情况下对图像中存在的所有概念进行建模的可能性。在这方面，提议的 SSL 框架 MC SSL0.0 是迈向多概念自我监督学习 MC SSL 的一步，它超越了对图像中的单个主导标签进行建模，以有效利用来自其中存在的所有概念的信息。 MC SSL0.0 包含两个核心设计概念，组掩码模型学习和使用动量编码器教师学生框架的数据令牌伪概念学习。多标签和多类图像分类下游任务的实验结果表明，MC SSL0.0 不仅超越了现有的 SSL 方法，而且优于监督迁移学习。

DiffSDFSim: Differentiable Rigid-Body Dynamics With Implicit Shapes
Authors Michael Strecke, Joerg Stueckler
可微物理是计算机视觉和机器人技术中用于场景理解和交互推理的强大工具。现有方法经常限于具有简单形状或预先已知的形状的对象。在本文中，我们提出了一种具有摩擦接触的可微物理的新方法，该方法使用带符号距离场 SDF 隐式表示对象形状。即使涉及的形状是非凸的，我们的模拟也支持接触点计算。此外，我们提出了区分对象形状动态的方法，以使用基于梯度的方法促进形状优化。

TridentAdapt: Learning Domain-invariance via Source-Target Confrontation and Self-induced Cross-domain Augmentation
Authors Fengyi Shen, Akhil Gurram, Ahmet Faruk Tuna, Onay Urfalioglu, Alois Knoll
由于难以获得真实标签，从虚拟世界数据集学习对现实世界的应用（如语义分割）非常感兴趣。从领域适应的角度来看，关键挑战是学习输入的领域不可知表示，以便从虚拟数据中受益。在本文中，我们提出了一种新的类似三叉戟的架构，该架构强制共享特征编码器同时满足对抗性源和目标约束，从而学习域不变特征空间。此外，我们还引入了一种新颖的训练管道，可以在前向传递期间实现自诱导跨域数据增强。这有助于进一步缩小域差距。结合自我训练过程，我们在基准数据集上获得了最先进的结果，例如GTA5 或 Synthia 对 Cityscapes 的改编。

Revisiting Temporal Alignment for Video Restoration
Authors Kun Zhou, Wenbo Li, Liying Lu, Xiaoguang Han, Jiangbo Lu
远程时间对齐对于视频恢复任务至关重要但具有挑战性。最近，一些工作试图将长距离对齐分成几个子对齐，并逐步处理它们。尽管此操作有助于对远距离对应进行建模，但由于传播机制，错误累积是不可避免的。在这项工作中，我们提出了一种新颖的、通用的迭代对齐模块，该模块对子对齐采用逐渐细化的方案，从而产生更准确的运动补偿。为了进一步提高对齐精度和时间一致性，我们开发了一种非参数重新加权方法，其中每个相邻帧的重要性以空间方式自适应评估以进行聚合。凭借所提出的策略，我们的模型在包括视频超分辨率、去噪和去模糊在内的一系列视频恢复任务的多个基准测试中实现了最先进的性能。

Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning
Authors Kunyu Peng, Alina Roitberg, David Schneider, Marios Koulakis, Kailun Yang, Rainer Stiefelhagen
人类情感识别是一个成熟的研究领域，具有许多应用，例如在心理护理中，但现有方法假设所有感兴趣的情绪都是先验地作为带注释的训练示例给出的。然而，通过新的心理学理论，人类情绪谱的粒度和细化程度不断提高，以及对情境中情绪的考虑增加，给数据收集和标记工作带来了相当大的压力。在本文中，我们将情绪的一次性识别概念化为一个新问题，旨在从单个支持样本中识别更细粒度的人类情感状态。为了解决这个具有挑战性的任务，我们遵循深度度量学习范式并引入了一种多模态情感嵌入方法，该方法通过利用人类外表的互补信息和通过语义分割网络获得的语义场景上下文来最小化相同情感嵌入的距离。我们的上下文感知模型的所有流都使用加权三元组损失和加权交叉熵损失联合优化。我们对适用于我们的一次性识别问题的 Emotic 数据集的分类和数字情感识别任务进行了彻底的实验，这表明从单个示例中对人类影响进行分类是一项艰巨的任务。尽管如此，我们模型的所有变体都明显优于随机基线，同时利用语义场景上下文不断改进学习的表示，设置最先进的结果，实现一次性情感识别。

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation
Authors Jiaqi Xu, Siyang Song, Keerthy Kusumam, Hatice Gunes, Michel Valstar
基于视频的自动抑郁症分析提供了一种快速、客观和可重复的自我评估解决方案，近年来得到了广泛的发展。虽然抑郁症线索可以通过各种时间尺度的人类面部行为来反映，但大多数现有方法要么专注于从短期或视频级别的面部行为对抑郁症进行建模。从这个意义上说，我们提出了一个两阶段框架，该框架从多尺度短期和视频级面部行为对抑郁症的严重程度进行建模。短期抑郁行为建模阶段首先从多个短时间尺度深度学习抑郁相关的面部行为特征，其中提出了一个抑郁特征增强DFE模块来增强所有时间尺度的抑郁相关线索并去除非抑郁噪声。然后，视频级抑郁行为建模阶段提出了两种新颖的图编码策略，即 Sequential Graph Representation SEG 和 Spectral Graph Representation SPG ，将目标视频的所有短期特征重新编码为视频级图表示，总结抑郁相关的多缩放视频级时间信息。因此，生成的图形表示使用短期和长期面部行为模式预测抑郁症的严重程度。在 AVEC 2013 和 AVEC 2014 数据集上的实验结果表明，所提出的 DFE 模块不断增强各种 CNN 模型的抑郁严重程度估计性能，而 SPG 优于其他视频级建模方法。

EdiBERT, a generative model for image editing
Authors Thibaut Issenhuth, Ugo Tanielian, J r mie Mary, David Picard
计算机视觉的进步正在推动图像处理的极限，生成模型对各种任务的详细图像进行采样。然而，尽管许多图像编辑任务有相似之处，但通常会为每个特定任务开发和训练专门的模型。在去噪、修复或图像合成中，人们总是致力于从低质量的图像中生成逼真的图像。在本文中，我们的目标是朝着统一的图像编辑方法迈出一步。为此，我们提出了 EdiBERT，这是一种双向变换器，在由矢量量化自动编码器构建的离散潜在空间中训练。我们认为这种双向模型适用于图像处理，因为任何补丁都可以有条件地重新采样到整个图像。

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Authors Byeonghu Na, Yoonsik Kim, Sungrae Park
语言知识通过提供语义来细化字符序列，为场景文本识别带来了巨大的好处。然而，由于语言知识已单独应用于输出序列，以前的方法并没有充分利用语义来理解文本识别的视觉线索。本文介绍了一种名为 Multi modAl Text Recognition Network MATRN 的新方法，该方法可以实现视觉和语义特征之间的交互，从而获得更好的识别性能。具体来说，MATRN 识别视觉和语义特征对并将空间信息编码为语义特征。在空间编码的基础上，通过参考其他模态中的相关特征来增强视觉和语义特征。此外，MATRN 通过在训练阶段隐藏与角色相关的视觉线索来刺激将语义特征组合成视觉特征。我们的实验表明 MATRN 在七个基准上实现了最先进的性能，并且具有很大的利润率，而两种模式的简单组合显示出边际改进。进一步的烧蚀研究证明了我们提出的组件的有效性。

ARTSeg: Employing Attention for Thermal images Semantic Segmentation
Authors Farzeen Munir, Shoaib Azam, Unse Fatima, Moongu Jeon
研究进展使部署在自动驾驶汽车中的神经网络算法能够感知周围环境。用于感知环境的标准外感受传感器是摄像头和激光雷达。因此，利用这些外感受传感器开发的神经网络算法为自动驾驶汽车的感知提供了必要的解决方案。这些外感受传感器的一个主要缺点是它们在恶劣天气条件下的可操作性，例如低照度和夜间条件。自动驾驶汽车传感器套件中热像仪的可用性和可负担性为自动驾驶汽车在恶劣天气条件下的感知提供了必要的改进。环境的语义有利于鲁棒的感知，这可以通过分割场景中的不同对象来实现。在这项工作中，我们使用热像仪进行语义分割。我们设计了一种基于注意力的循环卷积网络 RCNN 编码器解码器架构，名为 ARTSeg，用于热语义分割。这项工作的主要贡献是编码器解码器架构的设计，它为每个编码器和解码器块采用 RCNN 单元。此外，在解码器模块中使用附加注意来保留高分辨率特征并改善特征的定位。

Hallucinated Neural Radiance Fields in the Wild
Authors Xingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Feng Ying, Xuan Wang, Jue Wang
神经辐射场 NeRF 最近因其令人印象深刻的新颖视图合成能力而广受欢迎。本文研究了幻觉 NeRF 的问题，即从一组旅游图像中恢复一天中不同时间的真实 NeRF。现有的解决方案采用具有可控外观嵌入的 NeRF 来在各种条件下渲染新视图，但无法渲染具有看不见的外观的视图一致的图像。为了解决这个问题，我们提出了一个端到端的框架来构建一个幻觉 NeRF，称为 H NeRF。具体来说，我们提出了一个外观幻觉模块来处理随时间变化的外观并将它们转移到新的视图中。考虑到旅游图像遮挡的复杂性，引入抗遮挡模块对静态主体进行准确分解以提高可见度。合成数据和真实旅游照片集的实验结果表明，我们的方法不仅可以产生所需的外观，还可以从不同的角度渲染无遮挡的图像。

ConDA: Unsupervised Domain Adaptation for LiDAR Segmentation via Regularized Domain Concatenation
Authors Lingdong Kong, Niamul Quader, Venice Erin Liong
将从标记源域中学到的知识转移到原始目标域以进行无监督域自适应 UDA，对于自动驾驶系统的可扩展部署至关重要。 UDA 中最先进的方法通常采用一个关键概念，即利用来自具有地面实况的源域和具有伪标签的目标域的联合监督信号进行自我训练。在这项工作中，我们在这方面进行了改进和扩展。我们提出了 ConDA，这是一种用于 LiDAR 语义分割的基于串联的域适应框架，该框架 1 构建了一个由来自源域和目标域的细粒度交换信号组成的中间域，而不会破坏自我车辆周围对象和背景的语义一致性，2 利用中间域自我训练的领域。此外，为了改进源域上的网络训练和中间域上的自训练，我们提出了一个抗混叠正则化器和一个熵聚合器，以减少混叠伪影和嘈杂目标预测的不利影响。

NeRFReN: Neural Radiance Fields with Reflections
Authors Yuan Chen Guo, Di Kang, Linchao Bao, Yu He, Song Hai Zhang
神经辐射场 NeRF 使用基于坐标的神经场景表示实现了前所未有的视图合成质量。但是，NeRF 的视图依赖只能处理高光等简单反射，而无法处理玻璃和镜子等复杂反射。在这些场景中，NeRF 将虚拟图像建模为真实几何图形，这会导致深度估计不准确，并且在违反多视图一致性时会产生模糊渲染，因为反射对象可能仅在某些视点下可见。为了克服这些问题，我们引入了 NeRFReN，它建立在 NeRF 的基础上，用反射对场景进行建模。具体来说，我们建议将场景分成透射和反射分量，并使用单独的神经辐射场对这两个分量进行建模。考虑到这种分解受到高度约束，我们利用几何先验并应用精心设计的训练策略来实现合理的分解结果。对各种自捕获场景的实验表明，我们的方法在启用场景编辑应用程序的同时实现了高质量的新颖视图合成和物理声音深度估计结果。

Using a GAN to Generate Adversarial Examples to Facial Image Recognition
Authors Andrew Merrigan, Alan F. Smeaton
在线发布的图像存在隐私问题，因为它们可能被用作面部识别系统的参考示例。这种滥用图像的行为侵犯了隐私权，但很难反击。众所周知，可以为基于深度神经网络的识别系统创建对抗性示例图像。这些对抗性示例可用于破坏图像作为参考示例或训练数据的效用。在这项工作中，我们使用生成对抗网络 GAN 创建对抗样本来欺骗面部识别，我们在欺骗面部识别方面取得了可接受的成功率。我们的结果通过去除鉴别器组件减少了 GAN 的训练时间。

Point Cloud Instance Segmentation with Semi-supervised Bounding-Box Mining
Authors Yongbin Liao, Hongyuan Zhu, Yanggang Zhang, Chuangguan Ye, Tao Chen, Jiayuan Fan
随着深度学习的出现，点云实例分割取得了巨大的进步。然而，这些方法通常需要大量数据，并且需要昂贵且耗时的密集点云注释。为了降低注释成本，任务中对未标记或弱标记的数据的探索仍然较少。在本文中，我们介绍了第一个使用标记和未标记边界框作为监督的半监督点云实例分割框架 SPIB。具体来说，我们的 SPIB 架构涉及一个两阶段的学习过程。对于第一阶段，边界框提议生成网络在半监督设置下训练，具有扰动一致性正则化 SPCR。正则化通过在应用于输入点云的不同扰动上强制边界框预测的不变性来工作，为网络学习提供自我

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

【AI视野·今日CV 计算机视觉论文速览 第241期】Wed, 1 Dec 2021

相关文章

【AI视野·今日CV 计算机视觉论文速览第241期】Wed, 1 Dec 2021