锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

【AI视野·今日CV 计算机视觉论文速览第230期】Fri, 2 Jul 2021

时间：2023-12-06 05:07:01 0931s3pc接近传感器 1545s3pc接近传感器

AI视野·今日CS.CV 计算机视觉论文速读
Fri, 2 Jul 2021
Totally 69 papers
??上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

****??CSWin Transformer, 窗口交叉叠加抽取。transformer主干网络(from 中科大)

code:https://github.com/microsoft/CSWin-Transformer.

*****??AutoFormer, 视觉Transformer的自动搜索架构 (from 纽约州立大学石溪分校)

code:https://github.com/microsoft/AutoML

**??VideoLightFormer,轻量级动作识别transformer (from 谢菲尔德大学)

****??Focal Transformer, 聚焦自我注意力，有效交互全局和局部信息(from 微软研究院)

??*****OPT,全面感知交叉模态的理解和生成预训练模型 (from 中科院自动化所)

??***多模态集注意力瓶颈层blocks, (from 谷歌)
our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary。

??CLIP-It, 语言导向视频综述。(from Berkeley)

code:https://medhini.github.io/clip_it

??, (from )

??基于生成模型的点云压缩， (from Universite Paris-Saclay)

??Interviewer-Candidate Role Play, (from 亚利桑那州立 )

??MIDV-2020](https://arxiv.org/ftp/arxiv/papers/2107/2107.00396.pdf),超大规模身份证数据集 (from 俄罗斯科学院)

ftp://smartengines.com/midv-2020  http://l3i-share.univ-lr.fr.  ftp://smartengines.com/midv-500/documents.pdf  https://generated.photos   https://github.com/SmartEngines/hough_document_locali zation

****??Total Relighting, 背景替换过程中的重光方法 (from Google Research )

Daily Computer Vision Papers

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
Authors Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo
克斯宾变压器是一种高效有效的变压器基骨干，用于一般视觉任务。变压器设计中的一个挑战性问题是，全球自我关注的计算成本昂贵，而本地自我关注通常限制每个令牌的相互作用。为了解决这个问题，我们开发了交叉形窗口自我注意机制，用于并行地在水平和垂直条纹中计算自我注意，该窗口形成一个交叉形窗口，通过将输入特征分成相等宽度的条纹而获得的每个条纹。对条纹宽度的影响进行了详细的数学分析，改变了变压器网络不同层的条纹宽度，在限制计算成本时具有较强的建模能力。我们还介绍了当地增强位置编码LEPE，它比现有的编码方案更好地处理本地位置信息。 LEPE自然支持任意输入分辨率，对下游任务特别有效和友好。 CSWIN在这些设计和分层结构中，变压器展示了普通视觉任务的竞争性能。具体来说，它在ImageNet 1K上实现了85.53.9盒AP和46.4个面罩AP上的ADE20K51语义分割任务51.7 Miou，在类似的拖把设置下，超过之前艺术状态的艺术品分别在1.2,2.0,1.4和2.0下括号。通过较大的数据集ImageNet 21K上进行进一步预先预订，我们在Imagenet 1K上实现了87.5前一个精度，并在ADE20K上实现了55.2 miou艺术分割性能。可以使用代码和模型

AutoFormer: Searching Transformers for Visual Recognition
Authors Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling
最近，纯变压器模型对视觉任务(如图像分类和检测)有很大的潜力。然而，变压器网络的设计具有挑战性。视觉变压器的性能受到深度、嵌入尺寸和头部数量的影响。以前的型号是手动制作和配置的。在这项工作中，我们提出了一门用于视觉变压器搜索的自动成觉变压器搜索的自动成形。在超训期间，自动成形器纠缠在同一层中的不同块的权重。受益于战略，训练有素的超网允许成千上万的子网训练良好。具体来说，这些子网的性能相当于从超螺到期继承的权重，相当于从零开始再次训练的性能。此外，我们还参考了超越最近艺术状态的自动成型器搜索模型，如Vit和Deit。特别是自动成型小碱可分别实现74.7 81.7 82.4前1个170.9mm 53.7m想象参数。最后，我们通过在下游基准和蒸馏实验中提供性能来验证自动成形器的可转换性。可使用代码和型号

CLIP-It! Language-Guided Video Summarization
Authors Medhini Narasimhan, Anna Rohrbach, Trevor Darrell
一般视频摘要是视频的删节版，它传达了整个故事，具有最重要的场景。然而，视频中场景的重要性通常是主观的，用户应该选择使用自然语言定制摘要来指定重要的内容。此外，现有的全自动通用摘要模型不使用可用的语言模型，可作为显著有效的。这项工作介绍了一个框架，一个单一的框架，用于解决通用和查询关注视频的总结，通常单独接近文献。我们提出了一种语言指导多模式变压器。多模式变压器学习根据其相对于彼此的重要性和与用户定义查询的重要性对视频中的帧进行评分，以查询聚焦概述或通用视频概述自动生成的密集视频标题。我们的模型可以通过培训扩展到无人监督的环境，而无需培训础真相监督。我们以标准视频摘要数据集TVSUM和SUMPE的重大边际和查询聚焦视频摘要数据集QFV，以外的基线和先前的工作。特别是，我们在转移设置中取得了大量的改进，证明了我们的方法S的强大泛化能力。

On the Practicality of Deterministic Epistemic Uncertainty
Authors Janis Postels, Mattia Segu, Tao Sun, Luc Van Gool, Fisher Yu, Federico Tombari
一系列新的用于估算具有单向通行证的深神经网络中的认知不确定性的新方法，最近被成为贝叶斯神经网络的有效替代品。在信息性陈述的前提下，这些确定性的不确定性方法Dums在推出推断时间增加可忽略的计算成本时，Dums在检测到分配ood数据的情况下实现了很强的性能。然而，仍然尚不清楚Dums是否均匀校准，并且可以无缝地扩展到现实世界应用的先决条件的实际部署。为此，我们首先提供了一种DUM的分类，在连续分布换档时评估它们的校准及其对图像分类任务的ood检测的性能。然后，我们将最有希望的语义分割途径扩展。我们发现，当Dums缩放到现实的视觉任务并对OOD检测表现良好，而当前方法的实用性受到现实分布换档下的校准不良而受到破坏。

Deep Orthogonal Fusion: Multimodal Prognostic Biomarker Discovery Integrating Radiology, Pathology, Genomic, and Clinical Data
Authors Nathaniel Braman, Jacob W. H. Gordon, Emery T. Goossens, Caleb Willis, Martin C. Stumpe, Jagadish Venkataraman
肿瘤学的临床决策涉及多峰数据，如放射学扫描，分子分析，组织病理学载玻片和临床因素。尽管这些方式的重要性单独地，但迄今为止没有深入的学习框架使他们所有人都将其所有人组成以预测患者预后。在这里，我们预测来自不同多媒体数据的胶质瘤患者的整体存活OS，具有深度正交的融合DOF模型。该模型学会将来自多次MRI考试的信息组合，基于活检的模态，如H e Slide图像和或DNA测序，以及临床变量进入全面的多峰风险分数。通过注意门控张解器融合来学习和组合每种方式的预后嵌入。为了最大化从每种方式收集的信息，我们引入了多模式正交化MMO丢失项，通过激励成分嵌入来增加模型性能，以更加互补。 DOF预测胶质瘤患者的OS，中位数C指数为0.788 0.067，显着优于P <0.023最佳性能的单峰模型，中位数C指数为0.718 0.064。预后模型在临床子集中通过OS对胶质瘤患者进行了显着分层，对预后临床分级和分子亚型增加了进一步的粒度。

Global Filter Networks for Image Classification
Authors Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou
最近的自我关注和纯多层Perceptrons MLP模型的愿景模型表现出具有较少归纳偏差的有希望的性能的巨大潜力。这些模型通常基于从原始数据的空间位置之间的学习交互。随着图像尺寸的增加，自我注意力和MLP的复杂性逐渐增长，这使得这些模型在需要高分辨率特征时使这些模型难以扩展。在本文中，我们介绍了全局过滤器网络GFNET，这是一个概念上简单但计算的高效架构，它在具有日志线性复杂度的频域中学习长期空间依赖性。我们的体系结构在视觉变压器中取代了自我注意层，具有三个关键操作A 2D离散傅里叶变换，频域特征和学习全局滤波器之间的元素明智乘法，以及2D逆傅里叶变换。我们在想象中心和下游任务中表现出我们模型的有利精度复杂性贸易。我们的结果表明，GFNET可以是对变压器风格模型和CNN的效率，泛化能力和鲁棒性的非常竞争的替代品。代码可用

Focal Self-attention for Local-Global Interactions in Vision Transformers
Authors Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
最近，视觉变压器及其变体对各种计算机愿景任务表示了很大的希望。通过自我关注捕获短期和长距离视觉依赖性的能力可以说是成功的主要来源。但它也带来了由于二次计算开销导致的挑战，特别是对于高分辨率视觉任务，例如，对象检测。在本文中，我们提出了局灶性自我关注，这是一种新的机制，该机制包括局部颗粒的局部和粗粒粒度的全局相互作用。每个令牌使用这种新机制，每个令牌参加精细粒度的最近的周围令牌，但令牌远离粗糙的粒度，因此可以有效且有效地捕获短期和长距离视觉依赖性。通过焦点自我注意，我们提出了一种新的视觉变压器模型变体，称为焦距变压器，这在一系列公共图像分类和对象检测基准测试中实现了卓越的性能。特别是，我们的焦点变压器模型具有51.1亿的中等尺寸，尺寸较大89.8米，分别在224x224分辨率下的Imagenet分类达到83.5和83.8前面的精度。使用焦距变压器作为骨干，我们通过标准1X和3X时间表接受培训的6种不同的物体检测方法，获得了一致的和大量改进。我们最大的焦点变压器收益率58.7 58.9框图和50.9 51.3 Coco Mini Val Test Dev上的掩模地图，55.4 Miou在Ade20K上进行语义分割，在最具挑战性的计算机视觉任务中创造了新的Sota。

Semi-Sparsity for Smoothing Filters
Authors Junqing Huang, Haihui Wang, Xuechao Wang, Michael Ruzhansky
在本文中，我们提出了一种基于新型稀疏性诱导优化框架的有趣的半稀疏平滑算法。该方法源自多个观察，即半稀疏性先验知识更普遍适用，特别是在稀疏性未被完全录取的区域，例如多项式平滑表面。我们说明，可以在高阶梯度域中识别出该半稀疏性在更高阶梯度域中的广义L 0常态最小化，从而引发新的特征意识过滤方法，具有稀疏特征奇点和锐化边缘和非稀疏区域的强大同步拟合能力多项式平滑表面。请注意，由于L 0规范最小化的非凸起和组合性质，直接求解器始终不可用。相反，我们根据快速傅里叶变换FFT来解决基于高效半二次分割最小化的模型，用于加速度。我们终于展示了它的多功能性和许多益处，以及一系列信号图像处理和计算机视觉应用。

Action Transformer: A Self-Attention Model for Short-Time Human Action Recognition
Authors Vittorio Mazzia, Simone Angarano, Francesco Salvetti, Federico Angelini, Marcello Chiaberge
纯粹关注的深度神经网络在几个域中取得了成功，依赖于设计师的最小建筑前瞻性。在人类行动识别仓中，主要是在标准卷积或复发层的顶部采用关注机制，从而提高了整体泛化能力。在这项工作中，我们介绍了动作变压器行为，这是一种简单的完全自我注意的架构，始终如一地优于混合卷积，复发和细节层的更具详细的网络。为了限制计算和能源请求，建立在以前的人类行动识别研究中，所提出的方法利用小型时间窗口的2D姿势表示，为准确且有效的实时性能提供低延迟解决方案。此外，我们开源MOMES2021是一个新的大型数据集，作为建立正式培训和评估基准的实时短时的人类行动认可。通过我们提出的方法和几种以前的建筑解决方案对MOMES2021进行了广泛的实验证明了该法案模型的有效性，并为未来的哈尔的工作构成了基础。

A Unified Framework of Bundle Adjustment and Feature Matching for High-Resolution Satellite Images
Authors Xiao Ling, Xu Huang, Rongjun Qin
捆绑调整BA是一种用于精制卫星图像的传感器方向的技术，而调整精度与特征匹配结果相关。特征匹配通常包含弱重复纹理中的高不确定性，而BA结果则有助于减少这些不确定性。为了计算更准确的方向，本文在统一框架中的速率BA和功能匹配，并将工会配制为全局能量功能的优化，以便彼此限制BA和特征匹配的解决方案。为了避免在优化中的退化，我们通过将全局能量函数的优化分成两个步骤子优化来提出包括的解决方案，并以增量方式计算每个子优化的局部最小值。多视图高分辨率卫星图像的实验表明，我们所提出的方法优于具有或没有准确的最小二乘匹配的理想方向技术的状态。

Individual Tree Detection and Crown Delineation with 3D Information from Multi-view Satellite Images
Authors Changlin Xiao, Rongjun Qin, Xiao Xie, Xu Huang
单个树检测和皇冠描绘ITDD在森林库存管理中至关重要，并且基于遥感的森林调查主要通过卫星图像进行。然而，这些调查中的大多数仅使用2D光谱信息，该信息通常没有足够的IDD线索。为了完全探索卫星图像，我们提出了一种使用从多视图卫星数据衍生的正极光电极和数字表面模型DSM的ITDD方法。我们的算法利用顶帽形态操作，以有效地将局部最大值从DSM提取为树梢，然后将它们馈送到Modi Fied SuperPixel分段，该分段结合了树冠划分的2D和3D信息。在随后的步骤中，我们的方法包括通过植物同种术方程来伪造潜在异常值的生物学特性。对三个代表区手动标记树图的实验已经证明了有希望的结果最佳的整体检测精度可以是89。

3D Iterative Spatiotemporal Filtering for Classification of Multitemporal Satellite Data Sets
Authors Hessah Albanwan, Rongjun Qin, Xiaohu Lu, Mao Li, Desheng Liu, Jean Michel Guldmann
土地覆盖土地利用变更分析的目前的实践严重依赖于多立体数据集的单独分类地图。由于不同的采集条件，例如，照明，传感器，季节性差异，所产生的分类图通常不一致地通过稳健统计分析。 3D几何特征已被显示为稳定，用于评估跨时间数据集的差异。因此，在本文中，我们调查使用源自卫星数据的多立体正芯片和数字表面模型进行时尚分类。我们的方法包括使用具有有限训练样本的随机森林分类器的每类概率分布图的两个主要步骤组成，并使用每类概率图操作的迭代3D时空滤波器进行时空推断。我们的实验结果表明，该方法可以始终如一地改善单个分类结果2 6，因此可以是一个重要的分类细化方法。

Inter Extreme Points Geodesics for Weakly Supervised Segmentation
Authors Reuben Dorent, Samuel Joutard, Jonathan Shapey, Aaron Kujawa, Marc Modat, Sebastien Ourselin, Tom Vercauteren
我们介绍帖子inextremis，一种弱监督的3D方法，用于使用特别弱列的列车时间注释训练深度图像分割网络仅在感兴趣的对象的边界处仅重新点击。我们的全自动方法是训练结束到结束，不需要任何测试时间注释。从极端点，3D边界框在感兴趣的对象周围提取。然后，生成连接极端点的深层大测地仪以增加边界盒内的带注释的体素量。最后，使用从条件随机场制剂衍生的弱监督正则损失用于促进均匀区域的预测一致性。对前庭施瓦马瘤细分的大型开放数据集进行了广泛的实验。 Textit Inextremis获得了竞争性能，基于边界箱的其他弱监管技术接近完全监督和表现。此外，鉴于固定的注释时间预算，Textit Inextremis优于完全监督。我们的代码和数据在线提供。

SALYPATH: A Deep-Based Architecture for visual attention prediction
Authors Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Rachid Harba
人类的愿景自然是由他们的观点领域的一些地区更加吸引。这种内在选择性机制如此称为视觉关注，受到高水平因素的影响，例如全球环境照明，背景纹理等，刺激特征颜色，强度，方向等，以及一些先前的视觉信息。可视注意对许多计算机视觉应用程序（如图像压缩，识别和标题）有用。在本文中，我们提出了最后基于深度的方法，因此称为Salypath显着性和扫描路径，从而通过显着模型的特征有效地预测图像的扫描路径。通过利用基于深度模型来预测显着性的容量来预测扫描路径。所提出的方法通过2个众所周知的数据集进行评估。得到的结果表明，建议的框架与艺术模式相比的相关性。

On the detection-to-track association for online multi-object tracking
Authors Xufeng Lin, Chang Tsun Li, Victor Sanchez, Carsten Maple
通过深度神经网络的对象检测的最近进步驱动，通过检测范例的跟踪在多目标跟踪MOT的研究界中获得了越来越普遍。首先是已知外观信息在检测中起着重要作用，以跟踪关联，其在跟踪的核心通过检测范式追踪。虽然大多数现有作品考虑检测和轨道之间的外观距离，但它们忽略轨道中暗示暗示的统计信息，当检测具有两个或更多个轨道时，这可能特别有用。在这项工作中，我们提出了一种混合轨道关联HTA算法，其利用增量高斯混合模型IGMM模拟轨道的历史外观距离，并将导出的统计信息包含到检测的计算中以跟踪关联成本。三个MOT基准的实验结果证实，HTA有效地提高了对跟踪速度的小折衷了目标识别性能。此外，与许多艺术跟踪器的状态相比，在跟踪质量和速度的平衡方面，配备HTA的Deepsort跟踪器的性能更好或相当。

VideoLightFormer: Lightweight Action Recognition using Transformers
Authors Raivo Koot, Haiping Lu
高效的视频动作识别仍然是一个具有挑战性的问题。之后的一个大型模型取代了动力学数据集的最新状态的地方，但仍然缺乏现实世界效率评估。在这项工作中，我们填补了这个差距并调查了变压器的使用以实现高效行动识别。我们提出了一种小说，轻量级的动作识别架构视频态度。以一种分解方式，我们用变压器仔细扩展了2D卷积时间段网络，同时在整个模型中保持空间和时间视频结构。现有方法经常诉诸两个极端之一，他们要么将巨大的变压器应用于视频功能，或在高度汇集的视频功能上的最小变压器。我们的方法通过保持变压器模型小，但利用全日葵特征结构来不同。我们在临时要求史诗厨房100和V2 SSV2数据集的某些东西上以高效设置评估VideolightFormer，并发现它比SSV2上的时间换档模块相比，它实现了比现有技术的现有状态更好的效率和准确性。

Overhead-MNIST: Machine Learning Baselines for Image Classification
Authors Erik Larsen, David Noever, Korey MacVittie, John Lilly
培训二十三种机器学习算法，然后评分为建立基线比较度量，并选择值得嵌入到任务关键卫星成像系统的图像分类算法。开销Mnist DataSet是一系列类似风格的卫星图像，用于在机器学习文献中发现的无处不在的MNIST手写数字。 CATBoost分类器，轻梯度升压机和极端梯度提升模型产生了最高的精度，曲线AUC下的区域，以及PyCaret一般比较中的F1分数。单独的评估表明，深度卷积的建筑是最有前途的。我们为EDGE部署性和未来性能改进的基线提供了总体表现最佳性能算法的结果，卷积神经网络CNN在看不见的试验数据中评分0.965分类准确性。

Learning to Disambiguate Strongly Interacting Hands via Probabilistic Per-pixel Part Segmentation
Authors Zicong Fan, Adrian Spurr, Muhammed Kocabas, Siyu Tang, Michael J. Black, Otmar Hilliges
在自然谈话和互动中，我们的手经常重叠或彼此接触。由于手的均匀外观，这使得估计从图像互动的3D姿势困难。在本文中，我们证明了自我相似性，以及将像素观测分配给各自的手和它们的部分的产生的歧义是最终3D姿势错误的主要原因。通过这种洞察力，我们提出数字，一种用于估计来自单眼图像的两个交互手的3D姿势的新方法。该方法包括两个交织分支，该分支处理输入图像到每个像素语义部分分割掩码和视觉特征卷。与事先工作相比，我们不会从姿势估计阶段解耦，而是直接在下游姿势估计任务中利用每个像素概率。为此，零件概率与视觉功能合并并通过完全卷积的层进行处理。我们通过实验表明，所提出的方法在所有度量标准中实现了Interwand2.6M数据集的新技术。我们提供详细的消融研究，以证明我们的方法的功效，并提供对像素所有权的建模如何影响单一和交互手术估计的洞察。我们的代码将用于研究目的。

Segmenting 3D Hybrid Scenes via Zero-Shot Learning
Authors Bo Liu, Qiulei Dong, Zhanyi Hu
这项工作是解决零射击学习框架下3D混合场景点云语义分割问题。这里通过混合动力，我们的意思是场景由两种类和看不见的3D对象组成，在应用程序中具有更一般和现实的设置。为了我们的知识，文学中尚未探讨这个问题。为此，我们提出了一种网络来通过利用所看到和未经看不见的对象类的语义特征来综合各种类对象的点特征，称为PFNet。该提议的PFNET采用GAN架构来合成点特征，其中通过调整新的语义规范器来合并所看到的类和未经看不见的类特征的语义关系，并且合成的功能用于训练分类器以预测测试3D的标签场景点。此外，我们还通过在六个不同的数据拆分下组织公共S3DIS和SCANNet数据集来介绍两个用于算法评估的基准。两台基准测试的实验结果验证了我们所提出的方法，我们希望我们推出的两个基准和方法可能有助于更多关于这种新方向的研究。

Generating Synthetic Training Data for Deep Learning-Based UAV Trajectory Prediction
Authors Stefan Becker, Ronny Hug, Wolfgang H bner, Michael Arens, Brendan T. Morris
基于深度学习的模型，例如经常性神经网络RNN，已经应用于各种序列学习任务，以获得巨大的成功。在此之后，这些模型越来越多地替换对象跟踪应用中的经典方法，用于运动预测。一方面，这些模型可以通过所需的较少建模捕获复杂的对象动态，但另一方面，它们依赖于参数调谐的大量训练数据。为此，我们提出了一种在图像空间中产生无人机空中车辆无人机的合成轨迹数据的方法。由于无人机，或者相当四分波传输是动态系统，因此它们无法遵循任意轨迹。通过先决条件，UAV轨迹满足对应于更高阶运动的最小变化的平滑度标准，可以利用规划侵略性四轮机器飞行的方法通过一系列3D航点产生最佳轨迹。通过投影适用于控制四轮压积器的机动轨迹，实现了图像空间，实现了多功能轨迹数据集。为了展示合成轨迹数据的适用性，我们表明，基于RNN的预测模型，仅培训了所生成的数据可以在真实世界UAV跟踪数据集上优于经典的参考模型。评估是在公开可用的反UAV数据集完成的。

CBNetV2: A Composite Backbone Network Architecture for Object Detection
Authors Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibing Ling
现代顶部执行对象探测器在很大程度上取决于骨干网络，其进步通过探索更有效的网络结构来带来一致的性能。然而，设计或搜索新的骨干并在想象中预先训练它可能需要大量的计算资源，使得获得更好的检测性能昂贵。在本文中，我们提出了一种新颖的骨干网，即CBNetv2，通过构建现有的开放式预训练骨干的组成。特别是，CBNetv2架构组多个相同的底座，它们通过复合连接连接。我们还提出了一个更好的培训策略，与基于CBNet的探测器的助理监督。如果没有额外的预训练，CBNetv2可以集成到主流探测器中，包括一个阶段和两个阶段探测器，以及基于锚的锚和基于锚的探测器，并且在Coco上的基线上显着提高它们的性能。此外，实验提供了强有力的证据，表明复合骨架比预训练的更广泛和更深的网络更有效，资源友好，包括基于手动的和基于NAS，以及基于CNN和基于变压器的NAS。特别是，通过单模和单模测试，我们的HTC双流B型盒子AP和51.1掩模AP在Coco Test Dev上实现，这明显优于最先进的状态，即57.7盒AP和50.2掩模AP一个更强大的基线HTC，带有较大的骨干卫生间Swin L.代码将被释放

DVS-Attacks: Adversarial Attacks on Dynamic Vision Sensors for Spiking Neural Networks
Authors Alberto Marchisio, Giacomo Pira, Maurizio Martina, Guido Masera, Muhammad Shafique
尖刺神经网络SNNS，尽管在神经形态硬件上实现时能够节能，并且与基于事件的动态视觉传感器DVS相结合，但易受安全威胁的攻击，例如对抗攻击，即添加到用于诱导错误分类的情况下的小扰动。对此，我们提出了DVS攻击，这是一个针对涉及构成SNN的输入的事件序列的秘密且有效的对抗性攻击方法。首先，我们表明DVS的噪声过滤器可以用作防止对抗攻击的防御机制。之后，我们在两种类型的DVS摄像机的存在下实施多种攻击并测试它们。实验结果表明，过滤器只能将SNNS部分抵御我们所提出的DVS攻击。使用噪声过滤器的最佳设置，我们所提出的掩码过滤器感知DASH攻击在DVS手势数据集中缩短了20多个以上的精度，并且与原始清洁帧相比，MNIST DataSet上的65多个以上。所有所提出的DVS攻击和噪声过滤器的源代码都在释放

MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis
Authors Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov
身份证识别是文档分析的重要子领域，该分析涉及强大的文档检测，键入识别，文本字段识别的任务以及识别欺诈预防和文档真实性验证给定的照片，扫描或身份证框架的视频帧捕获。近年来，本主题公布了大量研究，但由于安全要求保护的主题，此类研究的主要困难是数据集的稀缺。一些身份文档数据集可用缺少文档类型，捕获条件或文档字段值的可变性的多样性。此外，已发布的数据集通常仅针对文档识别问题的子集设计，而不是用于复杂的身份文档分析。在本文中，我们介绍了一个数据集MIDV 2020，由1000个视频剪辑，2000扫描图像和1000张唯一的模拟身份证张照片组成，每个文件均有1000张纯文本值和唯一的人工生成的面部，具有丰富的注释。对于所呈现的基准标记数据集基线，可以为文档位置和标识，文本字段识别和面部检测提供此类任务。对于总共有72409个注释的图像，到发布日期，所提出的数据集是具有变量人工生成的数据的最大公开的身份证数据集，我们认为它将对文档分析和认可领域的进步证明它是非常宝贵的。数据集可用于下载

SSC: Semantic Scan Context for Large-Scale Place Recognition
Authors Lin Li, Xin Kong, Xiangrui Zhao, Tianxin Huang, Yong Liu
地点识别给出了SLAM系统，该系统能够纠正累积误差。与包含丰富纹理特征的图像不同，点云几乎是纯粹的几何信息，它基于点云具有挑战性地进行地点识别。现有的作品通常编码低级别功能，例如坐标，正常，反射强度等，作为本地或全局描述符以表示场景。此外，它们通常在匹配描述符时忽略点云之间的翻译。与大多数现有方法不同，我们探索使用高级功能，即语义，提高描述符的S表示能力。此外，当匹配描述符时，我们尝试纠正点云之间的转换以提高准确性。具体地，我们提出了一种新颖的全局描述符，语义扫描上下文，其探讨了语义信息，以更有效地表示场景。我们还呈现了一个两个步骤全局语义ICP，以获得3D构成x，y，用于对齐点云以提高匹配性能。我们在基提数据集上的实验表明，我们的方法优于具有大边距的现有技术的状态。我们的代码可供选择

Egocentric Image Captioning for Privacy-Preserved Passive Dietary Intake Monitoring
Authors Jianing Qiu, Frank P. W. Lo, Xiao Gu, Modou L. Jobarteh, Wenyan Jia, Tom Baranowski, Matilda Steiner Asiedu, Alex K. Anderson, Megan A McCrory, Edward Sazonov, Mingui Sun, Gary Frost, Benny Lo
基于相机的被动饮食进气监测能够连续捕获受试者的饮食集，记录丰富的视觉信息，例如所消耗的食物的类型和体积，以及受试者的饮食行为。然而，目前没有能够纳入这些视觉线索的方法，并提供来自被动录音的膳食摄入量的全面背景，是与他人共享食物的主题，对象正在吃什么，以及留下多少食物这个碗。另一方面，隐私是一个主要问题，而Egentric可穿戴摄像机用于捕获。在本文中，我们提出了隐私保存的安全解决方案，即用被动监测进行饮食评估的Egocentric图像标题，统一食品识别，体积估计和场景了解。通过将图像转换为丰富的文本描述，营养学家可以根据标题而不是原始图像评估个体膳食摄入，从而降低了图像隐私泄漏的风险。为此，建立了一个Egocentric饮食图像标题数据集，该数据集由在加纳的现场研究中的头部磨损和胸部磨损相机捕获的野生图像中。基于新颖的变压器的架构被设计为标题为Egentric饮食图像。已经进行了综合实验，以评估效率，并为拟议建筑设计的设计效果，以便为自我膳食图像标题设计。据我们所知，这是第一个将图像标题应用于现实生活中的饮食摄入评估的第一项工作。

Drone swarm patrolling with uneven coverage requirements
Authors Claudio Piciarelli, Gian Luca Foresti
在很多实际情况中，无人机的群体是越来越多的，例如在几乎无法访问的区域中的监视，环境监测，搜索和救援等。虽然单个无人机可以由人类运营商引导，但是一群人的部署多个无人机需要适当的算法进行自动任务面向控制。在本文中，我们专注于具有无人机安装相机传感器的可视覆盖优化。特别是，我们认为覆盖要求不均匀的具体情况，这意味着环境的不同部分具有不同的覆盖优先级。我们使用相关性图来模拟这些覆盖要求，并提出了一种深度加强学习算法来引导群体。本文首先为单个无人机定义了一个适当的学习模型，然后将其延伸到多种无人机的情况，贪婪和合作策略。实验结果表明了该方法的性能，也与标准巡逻算法进行了比较。

Towards Measuring Bias in Image Classification
Authors Nina Schaaf, Omar de Mitri, Hang Beom Kim, Alexander Windberger, Marco F. Huber
卷积神经网络CNN已成为主要计算机视觉任务的艺术状态。然而，由于复杂的潜在结构，他们的决定很难理解，这限制了它们在工业世界的某些背景下的用途。在机器学习ML任务中的常见且难以检测挑战是数据偏差。在这项工作中，我们介绍了通过归因地图揭示数据偏差的系统方法。为此目的，首先创建具有已知偏压的人工数据集并用于培训有意偏置的CNN。然后使用归因映射检查网络决策。最后，使用有意义的度量来测量与已知偏置的归属图表示的归因地图。所提出的研究表明，一些归属地图技术突出了比其他物品更好地存在偏差，并且度量可以支持偏差的识别。

Improving Task Adaptation for Cross-domain Few-shot Learning
Authors Wei Hong Li, Xialei Liu, Hakan Bilen
在本文中，我们看看跨域的问题很少的拍摄分类，旨在从以前看不见的类别和域名的分类器，其中包含一些标记的样本。我们研究了几种策略，包括各种适配器拓扑和运营，在其性能和效率方面，可以轻松地附加到具有不同元训练策略的现有方法，并在元测试阶段进行给定的任务。我们表明，附加到具有残余连接的卷积层的参数适配器表现了最佳，并且显着提高了在元数据集基准中的最新模型状态的性能，并具有较小的额外成本。我们的代码将可用

MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense Top-View Understanding
Authors Kunyu Peng, Juncong Fei, Kailun Yang, Alina Roitberg, Jiaming Zhang, Frank Bieder, Philipp Heidenreich, Christoph Stiller, Rainer Stiefelhagen
在所有自动化驾驶系统的核心中，能够感知周围环境，例如，通过激光序列的语义分割，这导致了由于Semantickitti和Nuscenes LidareG等大型数据集的释放而产生了显着进展。虽然最先前的工作重点关注LIDAR输入的稀疏分割，但密集的输出面罩提供具有几乎完整环境信息的自动驾驶汽车。在本文中，我们引入了专门为密集的顶视图理解驾驶场景而专门构建的多重注意力分割模型。我们的框架在柱子和占用功能上运行，包括三个基于的构建块1一个关键点驱动的图表注意，2基于LSTM的注意力从空间输入的矢量嵌入，3个基于支柱的注意力，导致360度分割面具。在Semantickitti和Nuscenes Lid索格上进行了广泛的实验，我们定量展示了我们模型的有效性，优于19.0在Semantickitti 19.0上的艺术状态，并在Nuscenes Lidarseg上达到32.7，其中质量是解决密集分割任务的第一项工作。此外，我们的多注意模型被证明对Kitti 3D数据集上验证的3D对象检测非常有效，展示其与与3D视觉相关的其他任务的高概括性。

PoliTO-IIT Submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition
Authors Chiara Plizzari, Mirco Planamente, Emanuele Alberti, Barbara Caputo
在本报告中，我们描述了我们向史诗厨房提交100个无监督域适应UDA挑战在行动认可中的技术细节。为了解决UDA设置下存在的域移位，我们首先利用了最近的域泛化DG技术，称为相对范围对齐RNA。它包括设计能够概括到任何未经看不见的域的模型，无论在训练时间访问目标数据。然后，在第二阶段，我们扩展了在未标记的目标数据上工作的方法，允许模型以无监督的方式适应目标分布。为此目的，我们包含在我们的框架现有的UDA算法中，例如颞术周度对抗性适应网络TA3N，与新的多流一致性损失共同，即时间硬规范对准T HNA和MIN熵一致性MEC。我们的提交条目PLNET在排行榜上可见，它可以实现动词的第一位置，以及名词和动作的第3个位置。

End-to-end Compression Towards Machine Vision: Network Architecture Design and Optimization
Authors Shurun Wang, Zhao Wang, Shiqi Wang, Yan Ye
视觉信号压缩的研究具有悠久的历史。通过深入学习推动，最近取得了激动人心的进展。尽管达到了更好的压缩性能，但在速率失真优化方面仍然以更好的信号质量设计到最终压缩算法。在本文中，我们表明，网络架构的设计和优化可以进一步改善压缩机器视觉。我们提出了倒置的瓶颈结构，以实现对机器视觉的结束压缩，这特别占语义信息的有效表示。此外，我们通过将分析精度纳入优化过程来追求优化的能力，并且通过以迭代方式进一步探索具有广义速率精度优化的最优性。我们使用物体检测作为展示，以结束到机器视觉的结束压缩，并且广泛的实验表明，该方案在分析性能方面实现了显着的BD速率。此外，由于启用信号电平重建，还对其他机器视觉任务的泛化能力强大的泛化能力也表明了该方案的承诺。

Orthonormal Product Quantization Network for Scalable Face Image Retrieval
Authors Ming Zhang, Xuefei Zhe, Hong Yan
最近，利用汉明距离度量的深散，对面部图像检索任务提高了越来越关注。但是，其对应于深度量化方法，用于使用字典相关距离指标学习二进制代码表示，很少被探索这项任务。本文首次尝试将产品量化集成到结束以结束面部图像检索的深度学习框架。与现有的深度量化方法不同，其中码字的数量来自数据学习，我们提出了一种使用预定义的正交向量作为码字的新颖方案，该方案旨在增强量化信息性并减少码字冗余。为了充分利用最大的鉴别信息，我们设计了一种定制的损失函数，可以为量化和原始特征的每个量化子空间中最大化身份辨别性。此外，施加基于熵的正则化术语以减少量化误差。我们在单个域和跨域检索的设置下对三个常用数据集进行实验。它表明，所提出的方法在两个设置中占据了所有比较的深度散列量化方法，具有显着优越性。所提出的码字方案始终如一地提高了常规模型性能和模型泛化能力，验证了码字分布对量化质量的重要性。此外，我们的模型的展示能力比深度散列模型表示它更适合可伸缩面部图像检索任务。

iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis
Authors Xin Liu, Henglin Shi, Haoyu Chen, Zitong Yu, Xiaobai Li, Guoying Zhaoz
我们为微观姿态理解和情感分析模拟介绍了一个新的DataSet为情感人工智能研究身份免费视频数据集。与现有的公共数据集不同，Imigue侧重于非语言身体手势而不使用任何身份信息，而情感分析的主要研究关注敏感的生物识别数据，如面部和语音。最重要的是，Imigue侧重于微观手势，即由内部感受驱动的无意行为，这些行为与来自其他手势数据集的普通手势的不同，这主要是故意用于说明性目的的。此外，模拟旨在评估模型通过集成所公认的微手势信息来分析情绪状态的能力，而不是仅仅识别序列中的序列中的原型或隔离。这是因为对情感AI的真正需要是以整体方式了解手势背后的情绪状态。此外，为了对该数据集的不平衡样本分布的挑战计数器，提出了一种无监督的学习方法，以捕获微型手势序列本身的潜在表示。我们系统地调查了该数据集的代表方法，并且综合实验结果揭示了造影的几个有趣的见解，例如，基于微型手势的分析可以促进情感理解。我们确认新的Imigue DataSet可以推进微观姿态和情感AI的研究。

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation
Authors Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Jinqiao Wang, Hanqing Lu
在本文中，我们提出了通过共同建模视觉，文本和音频资源来选择跨越模态理解和生成的Omni感知前训练师。选择选择在编码器解码器框架中构建，包括三个单个模态编码器，用于为每个模态生成基于令牌的嵌入式，是一种跨模型编码器，用于编码三个模态之间的相关性，以及两个跨模型解码器以分别生成文本和图像。对于OPT的预训练，我们设计了一个多任务借口学习方案，以从三个不同的数据粒度模拟多模态资源，即令牌，模态和采样电平建模，通过该令牌，通过该模型，通过该模型来学习以对齐和翻译不同的模态。预训练任务是在打开图像的大量图像文本音频三胞胎上执行的。实验结果表明，OPT可以学习强大的图像文本音频多模态表示，并在各种交叉模态理解和生成任务方面实现了有希望的结果。

Generic Event Boundary Detection Challenge at CVPR 2021 Technical Report: Cascaded Temporal Attention Network (CASTANET)
Authors Dexiang Hong, Congcong Li, Longyin Wen, Xinyao Wang, Libo Zhang
本报告介绍了在CVPR21提交通用事件边界检测Gebd挑战的方法。在这项工作中，我们设计了一种用于GeBD的级联时间注意网络Castanet，它由三个部分，骨干网，时间注意模块和分类模块形成。具体地，信道分离的卷积网络CSN用作提取特征的骨干网络，并且临时注意力模块被设计为实施网络以专注于辨别特征。之后，级联架构用于分类模块以产生更准确的边界。此外，集合策略用于进一步提高所提出的方法的性能。所提出的方法在动力学Gebd测试组上实现了83.30 F1得分，而与基线方法相比，该集合可提高20.5 F1分数。代码可用

E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with Transformer-based Stereoscopic Depth Perception
Authors Yonghao Long, Zhaoshuo Li, Chi Hang Yee, Chi Fai Ng, Russell H. Taylor, Mathias Unberath, Qi Dou
从立体声内窥镜视频重建机器人手术现场是手术数据科学中的一个重要和有希望的话题，可能支持许多应用，如外科视觉感知，机器人外科教育和术语术语的情境意识。然而，目前的方法主要限于重建静态解剖结构，假设没有组织变形，工具闭塞和遮挡和相机运动。然而，这些假设在最小的侵入机器人手术中并不总是满足。在这项工作中，我们为28 FPS运行的高度动态外科人士提供了一个有效的重建管道。具体地，我们设计了一种基于变压器的立体深度感知，用于高效的深度估计和轻量级工具分段器来处理工具闭塞。之后，提出了一种动态重建算法，其可以估计组织变形和相机运动，并为外科人的场景重建汇总随时间的信息。我们在两个数据集中评估了拟议的管道，公共汉梅金中心内窥镜视频数据集和我们在房子Davinci机器人手术数据集。结果表明，我们的方法可以恢复由外科手术工具阻碍的场景，并在实际的手术场景中实际速度处理相机的运动。

Deep auxiliary learning for visual localization using colorization task
Authors Mi Tian, Qiong Nie, Hao Shen, Xiahua Xia
视觉本地化是机器人和自主驾驶最重要的组件之一。最近，基于CNN的方法显示了鼓舞人心的结果，其提供了一种直接配方，以结束终端回归6 DOF绝对姿势。通常引入了几何或语义约束等附加信息以提高性能。特别是，后者可以将高级语义信息聚合到本地化任务中，但通常需要巨大的手动注释。为此，我们通过从自我监督的表示学习任务中引入场景特定的高级语义来提出一种用于相机定位的新颖辅助学习策略。被视为强大的代理任务，映像彩色任务被选为互补任务，该任务输出灰度照片的像素明智的彩色版本，无需额外的注释。在我们的工作中，彩色网络的功能表示通过设计嵌入到本地化网络中，以产生姿势回归的辨别功能。同时引入了注意力机制，以实现本地化性能。广泛的实验表明，我们的模型显着提高了室内和室外数据集的最新状态的本地化准确性。

Few-Shot Learning with a Strong Teacher
Authors Han Jia Ye, Lu Ming, De Chuan Zhan, Wei Lun Chao
很少有镜头学习FSL旨在使用有限标记的示例训练强大的分级器。许多现有的作品采用元学习方法，反过来采样几次拍摄任务，并优化对分类查询示例的几个镜头性能。在本文中，我们指出了这种方法的两个潜在的弱点。首先，采样的查询示例可能无法为几个镜头学习者提供足够的监督。其次，Meta学习的有效性随着镜头的增加而急剧下降，每班训练示例的数量。为了解决这些问题，我们提出了一部小说目的，即可直接培训少量射击学习者，如强大的分类器。具体而言，我们将每个采样的几个射击任务与强大的分类器相关联，这是用充足的标记示例学习的。强大的分类器具有更好的概括能力，我们使用它来监督少量射击学习者。我们提出了一种有效的方法来构建强大的分类器，使我们提出的客观易于即插即用的基于元学习的FSL方法。我们在具有许多代表性META学习方法的组合中验证了我们的方法。在包括MiniimageNet和棘手的几个基准数据集上，我们的方法导致各种任务中的显着改进。更重要的是，通过我们的方法，基于元学习的FSL方法可以始终如一地优于基于非元学习的FSL，即使在许多拍摄设置中，大大加强了他们的适用性。

One-class Steel Detector Using Patch GAN Discriminator for Visualising Anomalous Feature Map
Authors Takato Yasuno, Junichiro Fujii, Sakura Fukami
对于室内工厂的钢铁产品制造，钢缺陷检测对于质量控制很重要。例如，钢板非常细腻，必须准确检查。然而，为了保持围绕严重的户外环境的基础设施的涂料钢部分，腐蚀检测对于预测性维护至关重要。在本文中，我们提出了一种钢异常检测的通用应用，该检测包括以下四个组件。首先是一个学习者，是单位图像分类网络，以确定是否已经识别了感兴趣的区域或背景之后，在将原始大型图像划分为256平方单元图像之后。第二，提取器是基于预训练的钢发生器的鉴别器特征编码器，其具有贴片生成的对抗网络鉴别器GaN。第三个异常探测器，是一级支持向量机SVM，用于使用鉴别器特征预测异常分数。第四，指示器是用于在视觉上解释异常特征的异常概率图。此外，我们通过使用高速摄像机的13,774单位图像检查钢板缺陷，并根据照片的眼睛检查，用19,766单位图像涂上钢腐蚀的钢板缺陷。最后，我们使用条带和彩绘的钢检查数据集可视化钢的异常特征图

Attention Bottlenecks for Multimodal Fusion
Authors Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun
人类通过同时处理和融合来自诸如视觉和音频等多种模态的高维输入来感知世界。机器感知模型在Stark对比中，通常是针对单峰基准的模型和优化的模式，因此来自每个模态晚融合的最终表示或预测的晚期融合仍是多模式视频分类的主要范式。相反，我们介绍了一种基于更新的基于变压器的架构，它使用融合瓶颈在多层的模态融合。与传统成对自我关注相比，我们的模型强制不同方式之间的信息，以通过少量瓶颈潜伏，要求模型整理和冷凝在每种方式中最相关的信息，只能共享必要的信息。我们发现这种策略提高了融合性能，同时降低了计算成本。我们进行彻底的消融研究，并在包括音频视觉分类基准中实现最先进的结果，包括音频，史诗厨房和vggsound。所有代码和模型都将被释放。

CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation
Authors Ankit Singh
无监督域适应UDA旨在将标记的源分布与未标记的目标分布对齐，以获得域不变预测模型。然而，众所周知的UDA方法的应用在半系统监督域适应SSDA场景中没有概括，其中来自目标域的少数标记的样本可用。在本文中，我们提出了一个简单的对比学习框架，用于半监督域适应CLDA，该框架试图在SSDA中弥合标记和未标记的目标分布与源极和未标记的目标分布之间的域间差距之间的域间隙。我们建议采用类明智的对比学学习来减少原始输入图像和强大的未标记目标图像之间的域间隙和实例电平对比度，以最小化域内差异。我们已经凭经验表明，这两个模块相互补充，以实现卓越的性能。在三个众所周知的域适配基准数据集中的实验即Domainnet，Office Home和Office31展示了我们方法的有效性。 CLDA在所有上述数据集上实现最新的最新状态。

Fair Visual Recognition in Limited Data Regime using Self-Supervision and Self-Distillation
Authors Pratik Mazumder, Pravendra Singh, Vinay P. Namboodiri
深度学习模型通常学习培训数据中存在的偏差。研究人员提出了几种方法来减轻这种偏见并使模型公平。偏置缓解技术假设存在足够大量的训练示例。然而，我们观察到，如果训练数据有限，则偏置减轻方法的有效性严重降低。在本文中，我们提出了一种解决这个问题的新方法。具体而言，我们适应自我监督和自我蒸馏，以减少这种环境中偏差对模型的影响。自我监督和自蒸馏不用于偏差缓解。然而，通过这项工作，我们首次证明这些技术在偏见缓解方面非常有效。我们经验表明，我们的方法可以显着减少模型学习的偏差。此外，我们通过实验证明我们的方法与其他偏见缓解策略互补。我们的方法显着提高了它们的性能，并进一步减少了有限数据制度中的模型偏差。具体地，在L CiFar 10s偏斜数据集上，我们的方法显着降低了基线模型的偏差分数78.22，并以显着的绝对余量为8.89的精度优异。通过59.26，它还显着降低了艺术领域独立偏置的状态的偏差分数，并通过7.08的显着绝对余量来提高其性能。

Simple Training Strategies and Model Scaling for Object Detection
Authors Xianzhi Du, Barret Zoph, Wei Chih Hung, Tsung Yi Lin
物体检测系统的速度精度帕累托曲线通过更好的模型架构，培训和推理方法的组合进行了高级。在本文中，我们有条理地评估了各种这些技术，以了解现代检测系统的大多数改进。我们通过RetinAnet和RCNN探测器对Vanilla Reset FPN骨干网进行基准测试。 Vanilla探测器的精度提高了7.7，而速度速度较快。我们进一步提供了简单的缩放策略，以生成形成两个帕累托曲线的模型系列，名为RetinAnet RS和Cascade RCNN Rs。这些简单的重新定义探测器探讨了一级视网膜探测器和两级RCNN探测器之间的速度准确性折衷。我们最大的级联RCNN RS型号可实现52.9 AP，带RESET152 FPN骨架和53.6，带有SpinEnet143L主干。最后，我们显示了Reset架构，具有三个次要架构更改，优于效率，作为对象检测和实例分段系统的骨干。

Extraction of Key-frames of Endoscopic Videos by using Depth Information
Authors Pradipta Sasmal, Avinash Paul, M.K. Bhuyan, Yuji Iwahori
提出了一种基于深度学习的单手抄估计MDE技术，用于选择内窥镜视频的大多数信息帧密钥帧。在大多数情况下，息肉的地面真理深度映射不易获得，这就是我们在我们的方法中采用了转移学习方法的原因。内窥镜方式通常捕获成千上万的框架。在这种情况下，丢弃内窥镜视频的低质量和临床无关帧非常重要，而应保留最丰富的帧以进行临床诊断。在此视图中，通过利用息肉的深度信息来提出关键帧选择策略。在我们的方法中，考虑图像矩，边缘幅度和关键点，用于自适应地选择关键帧。我们所提出的方法的一个重要应用可以是借助于提取的关键帧的息肉的三维重建。此外，息肉是在提取的深度图的帮助下本地化的。

Learning to See before Learning to Act: Visual Pre-training for Manipulation
Authors Lin Yen Chen, Andy Zeng, Shuran Song, Phillip Isola, Tsung Yi Lin
有视觉前导者尤其如此。检测对象的能力促进学习以执行基于视觉的操纵。拾取对象我们在转移学习框架下研究这个问题，其中模型首先在被动视觉任务上培训，并适合执行活动操作任务。我们发现关于愿景任务的预培训显着提高了学习操纵物体的泛化和采样效率。但是，实现这些收益需要仔细选择模型的哪些部分转移。我们的关键洞察力是标准视觉模型的输出与常用于操纵中的可供性地图高度相关。因此，我们探讨从视觉网络直接转移模型参数到可提供的预测网络，并显示这可能导致成功的零拍摄适应，其中机器人可以拾取具有零机器人体验的某些对象。只需少量的机器人体验，我们就可以进一步微调带来的能力模型以获得更好的结果。只需10分钟的吸入体验或1小时的抓取体验，我们的方法在拾取新物品时实现了80个成功率。

Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation
Authors Nicklas Hansen, Hao Su, Xiaolong Wang
虽然由加固学习RL接受训练的代理商可以直接解决视觉观测的日益挑战性的任务，但概括到新颖环境的学习技能仍然非常具有挑战性。大量使用数据增强是一种有助于改善RL的概括的有希望的技术，但通常发现它可以降低样品效率，甚至可以导致发散。在本文中，我们调查在常见的策略RL算法中使用数据增强时的不稳定原因。我们识别两个问题，均植根于高方差Q目标。基于我们的研究结果，我们提出了一种简单但有效的技术，可在增强下稳定这类算法。我们在基于深度控制套件的基准系列以及机器人操纵任务中使用两种基准系列对基于图像的RL进行广泛的实

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

相关文章