【AI视野·今日CV 计算机视觉论文速览第224期】Tue, 22 Jun 2021

时间：2022-10-04 16:00:00 电感式接近开关bi2 传感器rl70ce 100mr59固定电感器 3005na接近开关传感器 rca2传感器rca2接近开关 cvs系列视觉传感器

AI视野·今日CS.CV 计算机视觉论文速读
Tue, 22 Jun 2021 (showing first 100 of 122 entries)
Totally 100 papers
??上期速览?更精彩请移动主页

在这里插入图片描述

Daily Computer Vision Papers

Towards Long-Form Video Understanding
Authors Chao Yuan Wu, Philipp Kr henb hl
我们的世界提供了无尽的视觉刺激流，但今天Vision Systems在几秒钟内准确识别模式。这些系统了解现在，但未能在过去或未来的事件中形成。本文研究了长期的视频理解。我们介绍了一个框架，用于在大型数据集上建模长表像和开发评估协议。现有的艺术状态短期模型是长期任务的限制。在七种不同的任务中，基于目的的变压器的视频识别架构显著更好。它还优于AVA相当状态的数据集。

Fast Simultaneous Gravitational Alignment of Multiple Point Sets
Authors Vladislav Golyanik, Soshi Shimada, Christian Theobalt
最近，对于任何输入的多个无序点集，刚性对准的问题造成了越来越多的好处，并提出了几种可靠的新方法。虽然噪声和聚类异常值很强，但目前的方法需要复杂的初始化方案，不会很好地扩展到大集。本文提出了一种新的弹性技术，用于在相互诱导的力场刚性移动的粒子群中注册多个点集。由于模拟的改进，物理定律的变化和2 d连接点交互的加速度是空间维度，我们的多重力方法MBGA对噪声和缺失数据有很强的支持，比以前的方法支持大量套件10 5分，更多。在各种实验设置中，MBGA在准确性和运行过程中，对准方法优于差异。我们使我们的源代码能够重复社区促进结果。

Simple Distillation Baselines for Improving Small Self-supervised Models
Authors Jindong Gu, Wei Liu, Yonglong Tian
虽然大型自我监督模型与其监督同行的表现相当，但小型模型仍在努力工作。在本报告中，我们讨论了通过蒸馏改进小型自我监督模型的简单基线，称为Simdis。具体来说，我们介绍了一种新技术的离线蒸馏基线和一种计算成本最低的在线蒸馏基线。我们希望这些基线能为未来的相关研究提供有用的经验。代码可用

Understanding Object Dynamics for Interactive Image-to-Video Synthesis
Authors Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj rn Ommer
我们提出了一种学习像素级局部操作引起的全局铰接的方法。培训只需要移动物体的视频，但没有潜在的物理场景操作信息。我们的生成模型学会将自然对象动态推断为对用户交互的响应，了解不同对象身体区域之间的关系。静态图像和像素的局部戳，然后预测对象随时间变形。与现有的视频预测工作相比，为了使局部交互控制变形，我们不合成任何现实视频。我们的模型不限于特定对象类别，可以动态传输到新的未对象实例。与普通视频预测框架相比，各种物体的广泛实验显示了我们方法的有效性。可用的项目页面

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?
Authors Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova
本文介绍了一种新颖的视觉表达学习，依靠少数自适应学习令牌，适用于图像和视频理解任务。我们的方法是学会在视觉数据中挖掘重要的令牌，而不是依靠手头设计的分割策略来获得视觉令牌，并处理大量密集采样补丁。这导致一些重要的视觉令牌被有效地找到，并且可以在这些令牌之间成像，在更长的视频时间范围内或图像中的空间内容。我们的实验频识别任务中，我们的实验表现出了几个具有挑战性的基准。重要的是，由于我们的令牌适应性，我们在显著减少的计算金额下实现了竞争结果。

The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification
Authors Yapkan Choi, Yeshwanth Napolean, Jan C. van Gemert
本文将运行步态评估为视频人员在长途运行中重新识别的属性。我们表明，与交叉相机检索任务中基于外观的方法相比，运行步态识别具有竞争性，步态和外观特征相互补充。由于躯干区域模糊，在使用二进制步态剪影时，由于躯干区域模糊，手臂在运行过程中的摇摆是无法区分的。建议使用人类语义分析来创建躯干遗漏的部分步态剪影。储存躯干可以通过允许手臂摆动在更明显的前倾观察角度来改善识别结果，这为手臂摆动提供了一点个人的暗示。与使用全身剪影相比，实验是CampusRun上增加了3.2地图，并在Casia B前后视图提高了4.8的准确性。

Neural Marching Cubes
Authors Zhiqin Chen, Hao Zhang
我们介绍了神经行进立方体NMC，从离散的隐式场中提取三角网格的数据驱动方法。古典MC将孤立的粗曲面模板定义为单独的立方体。虽然提出了更精致的曲面，但在确定每个立方体的顶点位置和本地网状拓扑时，都做出了启发性假设，比如TriLineARITY。原则上，这些方法中没有一种可以重建几何功能，揭示了附近多维数据集之间的一致性或依赖性，因为这些信息没有被占用，导致了真正隐藏隐藏场的不良估计。为了解决这些挑战，我们从深度学习、深度学习、训练网格学习的顶点位置和网状拓扑的角度设计了保留几何特征的曲面细分模板，以解释附近多维数据集的上下文信息。我们开发了每个立方体参数化的紧凑型参数化来表示输出三角形网格，并与神经处理兼容，从而使用简单的3D卷积网络训练。所有适合我们设计的立方体拓扑案例都可以通过我们的代表轻松导出，通过以下设计指南自然有效地获得曲面。此外，我们的网络对接收领域的本地功能有限，因此可以概括为新形状和新数据集。我们通过对所有众所周知的知识MC定量和定性比较变体来评估我们的神经MC方法。特别是，我们展示了恢复边缘和角落尖锐功能的能力MC长期的变体问题。我们的网络比以前的方法更准确地重建本地网状拓扑。

Applying VertexShuffle Toward 360-Degree Video Super-Resolution on Focused-Icosahedral-Mesh
Authors Na Li, Yao Liu
随着360度图像视频，增强现实AR和虚拟现实VR的新兴，对分析和处理球面信号的需求得到了巨大的增加。然而，在从球面信号投影的平面信号上支付了大量的努力，这导致一些问题，例如，浪费像素，失真。球形CNN的最近进步已经打开了直接分析球面信号的可能性。然而，他们注意完整的网格，这使得由于极大的带宽要求，处理现实世界应用中的情况不可行。为了解决与360度视频流和节省计算相关的带宽浪费问题，我们利用聚焦的ICOSAHEDRAL网格来表示一个小区域并构造矩阵以将球面内容旋转到聚焦网格区域。与UGSCNN中引入的原始Meshconv转置操作相比，我们还提出了一种新型的顶点动手操作，可以显着提高性能和效率。我们进一步应用于超分辨率模型的提出方法，这是第一个提出的球形超分辨率模型，该模型直接在360度数据的球形像素的网状表示上操作。为了评估我们的模型，我们还收集一组高分辨率360度视频来生成球形图像数据集。我们的实验表明，与使用简单的Meshconv转置操作的基线球面超分辨率模型相比，我们所提出的球形超分辨率模型在性能和推理时间方面实现了显着的好处。总之，我们的模型在360度输入上实现了大量的超级分辨率性能，平均实现了32.79dB的PSNR，当网格上的超级固定16倍顶点时，平均达到平均。

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning
Authors Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal
视频理解依赖于认识到全局内容和建模其内部连接，例如，因果关系，运动和时空时间对应。要了解这些交互，我们应用一个掩模，然后在通过VQ VAE生成的离散视频令牌上预测预训练任务。与文本令牌更独立的语言不同，邻近的视频令牌通常具有很强的相关性，例如，连续的视频帧通常看起来非常相似，因此均匀掩蔽单个令牌将使任务过于微不足道以学习有用的表示。要处理这个问题，我们提出了一个块明智的掩蔽策略，在那里我们在空间和时间域中掩盖了邻近的视频令牌。我们还通过预测从同一视频采样视频剪辑是通过预测视频剪辑是否从相同的视频采样来进一步捕获全局内容的增强无变对比度学习方法。我们预先培训我们的模型对未婚的视频，并显示我们的预训练模型可以在若干视频理解数据集中达到最先进的结果，SSV2，Diving48。最后，我们提供了对模型可扩展性和预训练方法设计的详细分析。代码已发布

Reliability and Validity of Image-Based and Self-Reported Skin Phenotype Metrics
Authors John J. Howard, Yevgeniy B. Sirotin, Jerry L. Tipton, Arun R. Vemury
随着采用面部识别系统的增加，重要的是确保跨人口统计群体的足够性能。最近，在探索性能差异时，已经提出了诸如皮肤音调的表型，例如传统比赛类别的优越替代品。但是，关于如何更广泛地在生物识别性能或AI评估中适当地测量肤色的共识。在这项研究中，我们探讨了使用设计用于测量人体皮肤的设备收集的图像和地面真理皮肤读取的面部区域亮度措施FALMS之间的关系。来自同一个人的不同图像估计的FALMS相对于地面真相粉的不同形象变化。这种变化仅通过对采集相机，背景和环境的更大控制来减少。接下来，我们将地面真相粉碎至Fitzpatrick皮肤类型使用标准，亲自，医学调查和表现出FST对皮肤色调的不太令人难以理解。最后，我们展示了对FALM的噪音有多估计导致对人口差异的解释因素的错误导致错误。这些结果表明，生物识别性能评估的肤色测量必须来自客观，特征和控制来源。此外，尽管这是目前实践的方法，但估计来自不受控制的图像的FST类别和Falmm，并不能提供适当的肤色测量。

Can poachers find animals from public camera trap images?
Authors Sara Beery, Elizabeth Bondi
为了保护含有敏感，高目标物种的相机陷阱数据的位置，许多生态学家在发布数据时随机地对相机的纬度和经度进行了随机。例如，它们可以在其网络中的每个相机的真正相机位置的1km半径内发布随机位置。在本文中，我们调查了Geo混淆维护摄像机陷阱位置隐私的稳健性，并通过案例研究表明，一些简单，直观的启发式和公开可用的卫星栅格可用于减少87的可能包含相机的区域假设在1KM内随机混淆，表明Geo混淆可能比以前认为的效果较低。

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering
Authors Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, Lifang He
多视图聚类，长期站立和重要的研究问题，重点介绍从不同视野中采矿的互补信息。然而，现有的工作通常融合了多个视图表示或在共同的特征空间中处理群集，这可能导致其纠缠，特别是对于视觉表示。为了解决这个问题，我们通过学习解除吊牌的视觉表示，提出了一种新的基于VAE的多视图聚类框架多VAE。具体地，我们在生成模型中定义了一个视图共同变量和多视图特殊变量。在视图之前的常见变量obeys大约是离散的gumbel softmax分布，引入了提取多个视图的公共集群因子。同时，视图之前的特殊变量遵循连续高斯分布，其用于表示每个视图的特殊视觉因素。通过控制互信能力来解开视图公共和观看特殊表示，可以分离多个视图的连续视觉信息，从而可以有效地开采它们的公共离散集群信息。实验结果表明，与现有技术的状态相比，多维vae享有脱屑和可解释的视觉表现，同时获得优异的聚类性能。

Temporal Early Exits for Efficient Video Object Detection
Authors Amin Sabet, Jonathon Hare, Bashir Al Hashimi, Geoff V. Merrett
根据资源约束，将基于图像的对象检测器传输到视频域保持挑战。以前的努力利用光学流动以允许传播的不变特征，然而，当使用来自监视等应用的慢慢改变场景时，开销是相当大的。在本文中，我们提出了暂时的早期退出以降低每帧视频对象检测的计算复杂性。具有低计算开销的多个时间早期出口模块插入骨干网络的早期层，以识别连续帧之间的语义差异。只有在识别为上次帧的语义变化时，否则才需要完全计算，否则，重复使用先前帧的检测结果。 CDNET的实验表明，与现有方法相比，我们的方法明显降低了每帧视频对象检测的计算复杂性和每帧视频对象检测的比较，其在地图中可接受的2.2中的2.2。

TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification
Authors Andr s Villa, Juan Manuel Perez Rua, Vladimir Araujo, Juan Carlos Niebles, Victor Escorcia, Alvaro Soto
最近，很少拍摄的学习得到了越来越兴趣。现有的努力一直专注于图像分类，很少有人尝试致力于较少的射击视频分类问题。这几次尝试旨在有效利用视频中的时间维度，以便在低数据制度中学习。但是，它们在很大程度上忽略了视频的一个关键特征，这对于很少的射击识别来说至关重要，即视频通常伴随着丰富的文本描述。在本文中，我们第一次提出利用这些人提供文本描述作为培训几次拍摄视频分类模型时的特权信息。具体来说，我们制定了基于文本的任务调节器，以使视频功能调整到几个镜头学习任务。我们的模型遵循转换设置，其中查询样本和支持文本描述可用于更新支持集类原型，以进一步提高模型的任务适应能力。我们的模型在很少拍摄视频动作分类中获得了四个具有挑战性的基准测试的最新性能。

3D Shape Registration Using Spectral Graph Embedding and Probabilistic Matching
Authors Avinash Sharma, Radu Horaud, Diana Mateus
我们解决了3D形状注册的问题，并提出了一种基于光谱图理论和概率匹配的新技术。 3D形状分析的任务涉及跟踪，识别，注册等。在单个框架中分析3D数据仍然是考虑用不同采集设备收集的数据的大可变性的具有挑战性的任务。 3D形状注册是一个如此有挑战性的形状分析任务。本章的主要贡献是通过将光谱图与拉普拉斯嵌入匹配匹配来将光谱图匹配方法扩展到非常大的图表。由于图形的嵌入式表示通过维度降低获得，因此我们声称现有的基于光谱的方法不容易适用。我们讨论了对精确和不精确的图形同构问题的解决方案，并调查组合图拉普拉斯的主要光谱特性我们提供了对通勤时间嵌入的新颖分析，使我们能够在图表的PCA方面解释后者，以及选择相关嵌入式度量空间的适当维度，我们推导出一个通勤时间嵌入的单元超球标准化，允许我们使用不同的采样注册两个形状，我们提出了一种新颖的方法来查找使用EIGENSINGE的特征值特征序列命令和特征向量标志。使用EIGENSIGNATE直方图，其不变于等距形状变形，并且在光谱图匹配框架中很好地适合，并且我们使用期望最大化点登记算法呈现概率形状匹配配方，该标志配准算法在对准的对齐和向顶点分配找到顶点之间交替。

Automatic Plant Cover Estimation with CNNs Automatic Plant Cover Estimation with Convolutional Neural Networks
Authors Matthias K rschens, Paul Bodesheim, Christine R mermann, Solveig Franziska Bucher, Mirco Migliavacca, Josephine Ulrich, Joachim Denzler
监测植物对环境变化的反应对于植物生物多样性研究至关重要。然而，这目前仍然是由该领域的植物学家手动手动完成。这项工作非常费力，并且所获得的数据是估计估计工厂覆盖的标准化方法，通常是主观的并且具有粗略的时间分辨率。为了解决这些警告，我们研究了使用卷积神经网络CNNS的方法，以自动提取来自图像的相关数据，专注于9种草本植物的植物群落组成和物种覆盖范围。为此，我们调查了几种标准的CNN架构和不同的预先预防方法。我们发现，我们在使用自定义CNN的较高图像分辨率下擅长先前的方法，使用自定义CNN具有5.16的平均绝对误差。除了这些调查外，还基于植物覆盖图像的时间方面进行误差分析。该分析深入了解自动方法的问题，如遮挡和可能因时间变化引起的错误分类。

OadTR: Online Action Detection with Transformers
Authors Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo, Changxin Gao, Nong Sang
最近的在线动作检测方法倾向于施加经常性神经网络RNN以捕获远程时间结构。然而，RNN遭受不行性和梯度消失，因此很难得到优化。在本文中，我们提出了一种基于名为OADTR的变换器的新编码器解码器框架来解决这些问题。附带任务令牌的编码器旨在捕捉历史观察之间的关系和全局相互作用。解码器通过聚合预期的未来剪辑表示来提取辅助信息。因此，OADTR可以通过编码历史信息并同时预测未来的上下文来识别当前的动作。我们在三个具有挑战性的数据集HDD，TVSERIES和THUMOS14上广泛评估了所提出的OADTR。实验结果表明，OADTR比基于RNN的方法更高的训练和推广速度，并且在地图和MCAP方面显着优于现有技术的状态。代码可用

FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild
Authors Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
基于图像的年龄估计旨在预测来自面部图像的人员年龄。它用于各种现实世界应用。尽管结束了深度模型的年龄估计对基准数据集的令人印象深刻的成果，但由于头部姿势，面部表情和闭塞症引起的挑战，它们在野外的性能仍然留下了很多因素的改善。为了解决这个问题，我们提出了一种简单但有效的方法，将面部语义明确地将面部语义纳入年龄估计，因此该模型将学会从未对齐的面部图像中正确专注于最具信息丰富的面部部件，而不管头部姿势和非刚性变形如何。为此，我们设计了一个基于面的基于脸部解析的网络，以学习不同尺度的语义信息和新的面部解析注意力模块，以利用这些语义特征来实现年龄估计。为了评估我们在狂野数据中的方法，我们还介绍了一个新的挑战大规模基准，称为IMDB清洁。使用约束群集方法，通过SEMI自动清洁Noisy IMDB Wiki数据集来创建此数据集。通过对IMDB的全面实验，在IMDB干净和其他基准数据集下，在数据集中的跨数据集和跨数据集评估协议下，我们表明我们的方法始终如一地优于所有现有的年龄估计方法，并实现了最新的最新性能。据我们所知，我们的工作提出了利用面临的第一次尝试，以实现语义意识年龄估计，这可能会鼓励其他高级面部分析任务。

Classification of Documents Extracted from Images with Optical Character Recognition Methods
Authors Omer Aydin
在过去十年中，机器学习方法给了我们无人驾驶汽车，语音识别，有效的网络搜索，以及更好地了解人类基因组。机器学习今天非常常见，它每天使用数十次，可能在不知不觉中使用。试图教导机器一些过程或某些情况可以使它们预测人类脑难以预测的一些结果。这些方法也有助于我们做一些在短时间内与人类活动发生的操作。由于这些原因，机器学习今天如此重要。在这项研究中，组合了两种不同的机器学习方法。为了解决现实世界问题，稿件文档首先转移到计算机，然后分类。我们使用了三种基本方法来实现整个过程。手写或印刷文件已被扫描仪或数码相机数字化。这些文档已经处理了两个不同的光学字符识别OCR操作。在该生成的文本之后通过使用Naive Bayes算法进行分类。所有项目都在Windows操作系统上的Microsoft Visual Studio 12平台中编程。 C编程语言用于研究的所有部分。此外，使用了一些准备的代码和DLL。

SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving
Authors Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Chunjing Xu, Xiaodan Liang
旨在促进现实世界，不断发展和可扩展的自主驾驶系统，我们展示了一个大规模的基准，用于通过从原始数据学习来标准化不同自我监督和半监督方法的评估，这是迄今为止的第一个和最大的基准。现有的自主驱动系统严重依赖于完美的视觉感知模型，例如，使用广泛的注释数据训练训练，以确保安全性。然而，精心标记所有情景和环境的实例是不现实的，例如，夜晚，极端天气，在部署强大的自主驱动系统时的城市。最近自我监督和半监督学习的强大进步的动机，希望通过协作利用大规模未标记的数据和少数标记数据来学习强大的检测模型。现有数据集E.G.，KITI，Waymo只提供少量数据或涵盖具有完整注释的有限域，阻碍了大规模预训练模型的探索。在这里，我们释放了一个名为SODA10M的自动驾驶的大规模对象检测基准，其中包含1000万未标记的图像和标有6个代表对象类别的20K图像。为了提高多样性，在不同天气条件，时期和位置场景下的32个不同城市内每帧每帧每帧收集每十秒钟的图像。我们提供广泛的实验和深入分析现有的艺术检测模型，流行的自我监督和半监督方法，以及如何培养未来模型的一些见解。数据和更多最新信息已发布

Distilling effective supervision for robust medical image segmentation with noisy labels
Authors Jialin Shi, Ji Wu
尽管在医学图像分割任务中的深度学习方法成功，但人类水平的性能依赖于具有高质量注释的大规模培训数据，这是昂贵且耗时的收集。事实是，具有标签噪声的低质量注释，从而导致学习模型的次优性能。具有嘈杂标签的分割学习的两个突出方向包括像素明智的噪声稳健训练和图像级噪声稳健训练。在这项工作中，我们提出了一种新颖的框架来通过从像素和图像级别蒸馏有效的监督信息来解决与嘈杂标签进行分割。特别地，我们明确估计每个像素作为像素明智噪声估计的不确定性，并通过使用原始标签和伪标签来提出像素明智的鲁棒学习。此外，我们提出了一种图像级稳健的学习方法，以适应更多信息作为对像素级别学习的补充。我们对模拟和真实世界嘈杂的数据集进行了广泛的实验。结果表明，与噪声标签的医学图像分割的技术基础相比，我们的方法的有利性能。

Obstacle Detection for BVLOS Drones
Authors Jan Moros Esteban
随着欧洲联盟的新规定的引入，超越视野BVLOS无人机的未来将被设置为绽放。这导致了创建了TheBeast项目，旨在创造一个自治安全无人机，重点是这些法规和安全。本技术论文描述了该项目中模块的第一步，围绕检测障碍物旋转，以便在故障安全降落中避免它们。深度学习的动力对象检测方法是我们研究的主题，并保持各种实验，以最大化其性能，例如比较各种数据增强技术或yolov3和yolov5。根据实验的结果，我们得出的结论是，尽管对象检测是解决这个问题的有希望的方法，但在真实寿命应用中潜在使用需要更多的数据。

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP
Authors Han Fang, Pengfei Xiong, Luhui Xu, Yu Chen
我们呈现CLIP2VIDEO网络将图像语言预培训模型转移到视频文本以结束以结束的方式。视频和语言学习领域的主要方法尝试从大型视频文本数据集中蒸馏出蒸馏时蒸馏出时空视频功能和视频和语言之间的多模态交互。与他们不同，我们利用预借鉴的图像语言模型，将其简化为具有图像文本的CO学习的两个阶段框架，并分别增强视频帧和视频文本之间的时间关系，使其能够在比较小的数据集上训练。具体地，基于由对比语言图像预测剪辑模型捕获的空间语义，我们的模型涉及时间差分块来捕获精细时间视频帧的运动，以及时间对准块，以重新对准视频剪辑和短语的令牌并增强多模态相关性。我们进行彻底的消融研究，并在主要文本上实现最新的艺术表现，以对视频和视频进行文本检索基准，包括MSR VTT，MSVD和Vatex上的检索准确性的新记录。

Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations
Authors Witold Oleszkiewicz, Dominika Basaj, Igor Sieradzki, Micha G rszczak, Barbara Rychalska, Koryna Lewandowska, Tomasz Trzci ski, Bartosz Zieli ski
最近引入了自我监督的图像代表学习方法，为他们的完全监督竞争对手提供了划分症或卓越的结果，但却努力解释自我监督的方法落后。通过这种观察，我们介绍了一种新的视觉探测框架，用于通过利用先前在自然语言处理中采用的探测任务来解释自我监督模型。探测任务需要了解图像部件之间的语义关系。因此，我们提出了一种系统的方法，以获得视野中的自然语言类似物，例如视觉词，背景和分类。我们的提案基于Marr S的愿景计算理论，涉及纹理，形状和线条等特征。我们在解释自我监督陈述的背景下显示了这些类似物的有效性和适用性。我们的主要研究结果强调，语言和愿景之间的关系可以作为发现机器学习模型如何工作的有效且直观的工具，独立于数据模型。我们的作品开辟了更夸张的研究途径，以更明显和透明的AI。

CataNet: Predicting remaining cataract surgery duration
Authors Andr s Marafioti, Michel Hayoz, Mathias Gallardo, Pablo M rquez Neila, Sebastian Wolf, Martin Zinkernagel, Raphael Sznitman
白内障手术是一种省略手术，在世界各地每年进行超过1000万次。通过如此大的需求，能够有效地组织手术病房和手术室的能力对于在常规临床护理中递送这种疗法至关重要。在这种情况下，估计过程中剩余的手术持续时间RSD是帮助简化患者吞吐量和工作流程的一种方法。为此，我们提出了Catanet，一种对白内障手术的方法，其实时预测RSD与两个有影响力的元素，外科医生的经验，以及手术的当前阶段。我们将Catanet与最先进的RSD估计方法进行比较，表明它即使不考虑阶段和经验，它也表现出它们的表现优于它们。我们调查了这一改进，并表明重要的贡献者是我们将经过的时间整合到Catanet S特征提取器的方式。

One Million Scenes for Autonomous Driving: ONCE Dataset
Authors Jiageng Mao, Minzhe Niu, Chenhan Jiang, Hanxue Liang, Xiaodan Liang, Yamin Li, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Jie Yu, Hang Xu, Chunjing Xu
自动驾驶中的当前感知模型对于大量的注释数据来说，自动驾驶的模型变得臭名昭着，以涵盖看不见的案例并解决长尾问题。另一方面，从未标记的大规模收集数据和逐步自我培训的强大识别模型的学习受到了越来越多的关注，并且可能成为自主驾驶中下一代行业水平强大和强大的感知模型的解决方案。然而，研究界通常遭受这些基本真实世界场景数据的数据不足，这妨碍了对3D感知的全半自我监督方法的未来探索。在本文中，我们介绍了一次自动驾驶场景中的3D对象检测的一百万场景数据集。曾经数据集由100万丽曲场景组成，700万相机图像。数据选自144个驾驶时间，比可用的最大3D自动驾驶数据集长20倍。 Nuscenes和Waymo，它在各种不同的区域，时期和天气条件下收集。为了促进未来关于利用未标记数据的3D检测数据的研究，我们还提供了一种基准，我们在其中重现和评估了一旦数据集的各种自我监督和半监督方法。我们对这些方法进行了广泛的分析，并提供了与与使用数据规模相关的表现的有价值的观察。数据，代码和更多信息可用

Interventional Video Grounding with Dual Contrastive Learning
Authors Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei Lu
视频接地旨在从未定向于未经过时的视频的时刻为给定的文本查询本地化。现有方法更多地关注视觉和语言刺激的对齐，基于各种可能的匹配或回归策略，即p y x。因此，由于数据集的选择偏差，这些模型可能遭受语言和视频特征之间的虚假相关性。 1要揭示模型和数据背后的因果关系，我们首先从因果推断的角度提出了一种新颖的范式，即介入视频接地IVG，它利用后门调整来基于结构化因果模型SCM和DO COMPULUS PY来解除选择偏置。做x。然后，我们提出了一种简单但有效的方法来近似未观察到的混淆，因为它无法直接从数据集中采样。 2同时，我们介绍了一种双重对比学习方法DCL，通过最大化查询和视频剪辑之间的互信息MI来更好地对齐文本和视频，以及在视频中的目标时刻的开始结束帧之间的MI之间的MI来学习更多信息信息视觉表现。三个标准基准测试的实验表明了我们方法的有效性。

Delving into the pixels of adversarial samples
Authors Blerta Lindqvist
尽管对对抗性攻击进行了广泛的研究，但我们不知道对抗性攻击如何影响图像像素。了解图像像素是如何受到对抗性攻击的影响有可能导致我们更好的对抗性防御。由我们发现强烈的攻击不会转移的情况的情况，我们在像素级别进入对手实例以仔细审查对抗性攻击如何影响图像像素值。我们考虑了几种ImageNet架构，Inceptionv3，VGG19和Reset50，以及几个强烈的攻击。我们发现，根据分类器架构，攻击可能对像素级别产生不同的影响。特别地，输入预处理在攻击对像素上的效果中播放先前忽略的作用。基于像素级别检查的见解，我们找到了检测最强劲的当前攻击的新方法。

Pre-training also Transfers Non-Robustness
Authors Jiaming Zhang, Jitao Sang, Qi Yi, Huiwen Dong, Jian Yu
预训练已经启用了许多任务的最佳状态。尽管其对泛化的认可贡献，我们在本研究中观察到，预训练也将非鲁棒性从预训练的模型转移到微调模型中。使用图像分类作为示例，我们首先在各种数据集和网络骨干上进行了实验，以探索影响鲁棒性的因素。在检查微调模型和标准模型之间的差异来进行进一步分析，以发现导致非稳健性转移的原因。最后，我们通过规范目标和源任务之间的差异来介绍一个简单的强大的预训练解决方案。结果验证减轻不稳健性和保存泛化的有效性。

SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild
Authors Ariel Caputo, Andrea Giachetti, Simone Soso, Deborah Pintani, Andrea D Eusanio, Stefano Pini, Guido Borghi, Alessandro Simoni, Roberto Vezzani, Rita Cucchiara, Andrea Ranieri, Franca Giannini, Katia Lupinetti, Marina Monti, Mehran Maghoumi, Joseph J. LaViola Jr, Minh Quan Le, Hai Dang Nguyen, Minh Triet Tran
手势识别是一种基本工具，可以在混合现实环境，无情的公共信息亭，娱乐系统等各种应用场景中启用新的互动范例，如混合的现实环境，娱乐系统等。现在可以直接从低成本跟踪器UltraLAP和MR耳机，Oculus Quest或通过视频处理软件模块提供的软件估计的软件估计的手势识别手势的识别。 Google MediaPipe。尽管近期骷髅和行动识别的进步，但目前尚不清楚最新的技术能够在真实世界场景中表现出识别广泛的异构手势，因为许多基准都不测试在线识别并使用有限的词典。这激发了SHREC 2021轨道在野外骨架上的骨架手势识别上的提议。对于这场比赛，我们创建了一个具有不同类型和持续时间的异构手势的新型数据集。这些手势必须在在线识别方案中找到内部序列。本文提出了比赛的结果，显示了四个研究小组对挑战性任务的四个研究组提出的技术的表演，与简单的基线方法相比。

Segmentation of cell-level anomalies in electroluminescence images of photovoltaic modules
Authors Urtzi Otamendi, I igo Martinez, Marco Quartulli, Igor G. Olaizola, Elisabeth Viles, Werther Cambarau
在光伏光伏工厂的操作维护中，失败的早期识别是至关重要的，以维持生产率和延长部件的寿命。在所有缺陷中，细胞水平异常会导致严重的失败，并且可以长期影响围绕光伏模块。这些细缺陷通常具有高空间分辨率电致发光EL成像。获取此类图像的难度限制了数据的可用性。对于这项工作，已使用多个数据资源和增强技术来超越此限制。现有技术的最新状态从单个光伏电池图像中提取几乎没有低水平的信息，并且它们的性能由可用的训练数据调节。在本文中，我们提出了一端以通过EL图像从整个光伏模块中检测，定位和区分细胞水平异常的结束。所提出的模块化管道结合了三种深度学习技术1.对象检测修改了更快的RNN，2。图像分类效率，3.弱监管的分割AutoEncoder。管道的模块化性质允许将深度学习模型升级到现有技术的进一步改进，并扩展管道朝向新功能。

Multiple Object Tracking with Mixture Density Networks for Trajectory Estimation
Authors Andreu Girbau, Xavier Gir i Nieto, Ignasi Rius, Ferran Marqu s
多个对象跟踪面临多种可能被轨迹信息缓解的挑战。了解物体的后部位置有助于消除歧义和解决诸如闭塞，RE识别和身份切换的情况。在这项工作中，我们表明轨迹估计可以成为跟踪的关键因素，并且存在基于经常性混合密度网络的轨迹估计器，作为可以添加到现有对象跟踪器的通用模块。要提供多个轨迹假设，我们的方法使用波束搜索。此外，依赖于相同的估计轨迹，我们建议在发生闭塞后重建轨道。我们将Traje集成到了最艺术跟踪算法，CenterTrack 63和Tracktor 3的两个状态。它们在Motchallenge 2017年测试集中的各自表演在Mota评分中提升了6.3和0.3点，在IDF1中为1.8和3.1，为CenterTrack Traje配置设置了新的最新技术

Hard hat wearing detection based on head keypoint localization
Authors Bartosz W jcik, Mateusz arski, Kamil Ksi ek, Jaros aw Adam Miszczak, Miros aw Jan Skibniewski
近年来，在基于视觉的施工现场安全系统的背景下，对深度学习方法进行了很多关注，特别是关于个人防护设备。然而，尽管关注了，但仍然没有可靠的方式来建立工人和他们的安全帽之间的关系。为了回答这个问题，在本文中提出了具有简单规则的推理的深度学习，对象检测和头部键盘本地化的组合。在测试中，该解决方案基于不同实例的相对边界框位置超越了先前的方法，以及直接检测安全帽佩戴者和非佩戴者。结果表明，具有人类可解释的规则的系统的新型深度学习方法的结合可以导致解决方案，可以是可靠的，可以在现场监督下成功模仿手册。这项工作是开发完全自主施工现场安全系统的下一步，并表明该领域还有改进的余地。

TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning
Authors Zhihao Fan, Zhongyu Wei, Siyuan Wang, Ruize Wang, Zejun Li, Haijun Shan, Xuanjing Huang
对图像标题的现有研究通常代表使用具有低级别事实对象和关系的场景图的图像，并且无法捕获高级语义。在本文中，我们提出了一个主题概念扩展图像标题TCIC框架，其包含主题概念来代表高级跨模块语义。在实践中，我们将主题概念模拟为存储器矢量，并提出具有主节点TTN的变压器，以结合那些用于图像标题的矢量。考虑到主题概念可以从两种图像和标题中学到，我们为基于TTN的表示学习提供了两个设置。在视觉侧，TTN被配置为将基于场景图的特征和主题概念作为视觉表示学习的输入。在语言侧，TTN被配置为将标题和主题概念作为文本表示重新构造的输入。两个设置旨在使用相同的基于变压器的解码器生成目标字幕。在培训期间，我们进一步调整从图像和相应标题中学到的主题概念的表示，以强制跨派式学习。与艺术模型的某些状态相比，Coco上的实验结果表明了我们的方法的有效性。

Unsupervised Deep Learning by Injecting Low-Rank and Sparse Priors
Authors Tomoya Sakai
如果通过组合层模块CNN，RNN等，工程师少开采电感偏差，即现有众所周知的规则或先前知识，则何时何时可以从稀疏性诱导的前沿何时设计我们专注于在深度学习中使用稀疏诱导前瞻，鼓励网络以无人监督的方式简明地捕捉高维数据的性质。为了使用非可微分的稀疏性诱导规范作为损耗功能，我们将近端映射插入自动差异化框架中。我们展示了使用低等级和稀疏前沿的背景减法的U净的无监督学习。 U NET可以在没有任何注释的情况下在训练序列中学习移动对象，并成功检测测试序列中的前景对象。

Cross-layer Navigation Convolutional Neural Network for Fine-grained Visual Classification
Authors Chenyu Guo, Jiyang Xie, Kongming Liang, Xian Sun, Zhanyu Ma
细粒度的视觉分类FGVC旨在对同一超级课程中的物体进行分类，例如，鸟类的种类，汽车型号。对于FGVC任务，基本解决方案是从当地区域找到目标的判别细微信息。 TraditionalFGVC型号优先使用精细特征，即，用于识别的高级语义信息，并且很少在地层中使用低电平。但是，事实证明，包含丰富细节信息的低级信息也对提高性能产生影响。因此，在本文中，我们向特征融合提出了跨层导航卷积神经网络。首先，由骨干网络提取的特征映射从高电平顺序地向卷积的长短短期存储器模型中馈送到低电平以执行特征聚合。然后，在特征融合之后使用注意机制来提取空间和信道信息，同时链接高电平语义信息和低电平纹理特征，这可以更好地定位FGVC的识别区域。在实验中，三个常用的FGVC数据集包括Cub 200 2011，Stanford Cars，AndFGVC飞机数据集，用于评估，我们通过将其与其他引用的FGV方法进行比较来证明所提出的方法的优越性，以表明该方法实现优越结果。

Surgical data science for safe cholecystectomy: a protocol for segmentation of hepatocystic anatomy and assessment of the critical view of safety
Authors Pietro Mascagni, Deepak Alapatt, Alain Garcia, Nariaki Okamoto, Armine Vardazaryan, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy
微创图像引导手术严重依赖视力。因此，外科微型视频分析的深度学习模型可以支持视觉任务，例如评估腹腔镜胆囊切除术LC中安全性CV的临界视图，可能导致手术安全性和效率。然而，这种模型的性能，可靠性和再现性深深地依赖于其开发中使用的数据和注释的质量。在这里，我们提出了一种协议，清单和视觉示例，以促进一致的肝细胞解剖学和CVS标准的注释。我们认为分享注释指南可以帮助建立可靠的多中心数据集以评估性能的易于提升性，从而加速了用于外科视频分析的深度学习模型的临床翻译。

Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking
Authors Xin Li, Wenjie Pei, Zikun Zhou, Zhenyu He, Huchuan Lu, Ming Hsuan Yang
虽然基于深度学习的视觉跟踪方法取得了实质性的进展，但这些方案需要大规模和高质量的注释数据，以进行足够的培训。为了消除昂贵和详尽的注释，我们研究了自我监督的学习，以了解视觉跟踪。在这项工作中，我们开发了作物变换粘贴操作，该操作能够通过在跟踪期间模拟各种场景变化来综合足够的训练数据，包括对象和背景的外观变化。由于对象状态在所有合成数据中都是已知的，因此现有的深度跟踪器可以在没有人为注释的情况下以例行方式培训。与典型的自我监督学习方法不同，执行视觉表示学习作为单独的步骤，所提出的自我监督的学习机制可以无缝地集成到任何现有的跟踪框架中以执行训练。广泛的实验表明，我们的方法1在很少的镜头跟踪方案中实现了比监督学习的有利性能2可以处理各种跟踪挑战，如物体变形，遮挡或背景杂波，因为它的设计3可以与监督学习相结合进一步提升在几次拍摄跟踪方案中表现，特别有效。

PIANO: A Parametric Hand Bone Model from Magnetic Resonance Imaging
Authors Yuwei Li, Minye Wu, Yuyao Zhang, Lan Xu, Jingyi Yu
手表建模对于沉浸式VR AR，行动理解或人类医疗是至关重要的。现有的参数模型仅用于手形状，姿势或纹理，而不建模像骨骼等解剖学属性，这对于现实的手工生物力学分析至关重要。在本文中，我们展示了钢琴，来自MRI数据的人类手第一个参数骨模型。我们的钢琴模型在生物学上是正确的，简单的动画，而且可微分，以数据驱动的方式实现更加解剖学上的内部手动式结构，而不是基于外表面的传统手机。此外，我们的钢琴模型可以应用于神经网络层，以实现具有细粒度的语义损失的培训，这开辟了从MRI甚至RGB图像的数据驱动的细粒度骨头解剖学和语义理解的新任务。我们将我们的型号公开提供。

Confidence-Guided Radiology Report Generation
Authors Yixin Wang, Zihao Lin, Jiang Tian, zhongchao shi, Yang Zhang, Jianping Fan, Zhiqiang He
医学成像在临床实践中的诊断和治疗中起着枢转作用。灵感来自自动图像标题中的显着进展，已经提出了用于生成医学图像的放射学报告的各种深度学习DL的架构。然而，模型不确定性即，模型可靠性对报告生成的信心仍然是一个探索问题。在本文中，我们提出了一种新的方法，明确地量化了放射学报告生成任务的视觉不确定性和文本不确定性。这种多模态不确定性可以充分捕获报告水平和句子水平的模型置信度分数，因此它们进一步利用以重量实现更全面的模型优化的损失。我们的实验结果表明，我们提出的模型不确定性表征和估算方法可以为放射学报告生成提供更可靠的置信度分数，我们提出的不确定性加权损失可以实现更全面的模型优化，并导致公共放射学的最先进状态报告数据集。

Knowledge Distillation via Instance-level Sequence Learning
Authors Haoran Zhao, Xin Sun, Junyu Dong, Zihe Dong, Qiong Li
最近，建议蒸馏方法从教师网络提取一般知识以指导学生网络。大多数现有方法通过馈送均匀地从数据采样的随机迷你批次的序列来将知识从教师网络转移到学生。相反，我们争辩说，应使用以有意义的序列订购的样本逐渐引导紧凑的学生网络。因此，它可以通过步骤介绍教师和学生网络之间的特征表示的差距。在这项工作中，我们通过实例级序列学习提供课程学习知识蒸馏框架。它使用早期ENOCH的学生网络作为快照，以创建学生网络的下一个训练阶段的课程。我们对CiFar 10，CiFar 100，SVHN和CICIC 10数据集进行了广泛的实验。与若干国家相比，我们的框架实现了迭代较少的最佳性能。

Affect-driven Engagement Measurement from Videos
Authors Ali Abedi, Shehroz Khan
在教育和干预计划中，人士的参与已被确定为成功计划完成的主要因素。人员参与的自动测量为教师提供了有用的信息，以满足计划目标和个性化计划交付。在本文中，我们在虚拟学习程序中提出了一种用于视频的参与测量的新方法。我们建议使用影响状态，从连续视频帧提取的价值和唤醒的连续值以及用于接合测量的新潜在情感特征向量和行为特征。基于深度学习的时间和传统的基于机器学习的非时间模型，分别培训并验证帧级别和视频级别。除了传统的集中学习之外，我们还在分散的联合学习设置中实现了所提出的方法，并研究模型个性化在接合测量中的效果。我们评估了拟议方法对唯一两个公开的视频订婚测量数据集，DAISEE和EMOTIW的性能，其中包含在线学习计划中的学生视频。我们的实验表明了最先进的最新订婚级别分类精度为63.3，并在DAISED数据集中正确分类了脱离视频，并在EMOTIW数据集中的0.0673的回归平均正误差。我们的消融研究表明，在接合测量中纳入影响状态的有效性。我们根据参与领域的心理学概念来解释从实验结果的调查结果。

Total Generate: Cycle in Cycle Generative Adversarial Networks for Generating Human Faces, Hands, Bodies, and Natural Scenes
Authors Hao Tang, Nicu Sebe
我们在循环生成的对抗网络中提出了一种新颖和统一的周期，用于生成人面，手，机构和自然场景。我们所提出的C2Gan是一种跨模型模型，以交互方式探索输入图像数据和指导数据的联合开发。 C2Gan包含两个不同的发电机，即图像生成发生器和引导生成发生器。两个发生器在结束时相互连接和训练，并明确地形成三个循环子网，即一个图像生成周期和两个引导产生周期。每个循环旨在重建输入域，并同时产生涉及的另一个循环中涉及的有用输出。以这种方式，循环彼此限制隐含地从图像和引导方式提供互补信息，并在整个周期中带来额外的监督梯度，促进整个模型的更强大优化。对于图像转换子特设的四个引导图像的广泛结果表明，所提出的C2ANG与艺术模型的状态相比有效地产生更现实的图像。代码可用

An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention
Authors Rina Buoy, Sokchea Kor, Nguonly Taing
本文呈现了用于高棉光学字符识别OCR任务的结束以结束深度卷积经常性神经网络解决方案。所提出的解决方案使用序列来序列SEQ2Seq架构与注意机制。编码器通过剩余卷积块的层和一层门控复发单元GRU提取来自输入文本线图像的视觉特征。该特征在单个上下文向量中编码，并将其发送到解码器的一个隐藏状态，以便一次解码一个字符直到达到句子EOS令牌的特殊端。注意机制允许解码器网络在预测目标字符的同时自适应地选择输入图像的部分。 SEQ2SEQ Khmer OCR网络培训了七个常见的Khmer字体的大量计算机生成的文本线图像。该模型的模型S性能优于通过实现1 VS 3的字符误差率CER在3000图像测试集上为高棉语言表现出Khmer语言的艺术TESERACT OCR引擎状态。

Moving in a 360 World: Synthesizing Panoramic Parallaxes from a Single Panorama
Authors Ching Yu Hsu, Cheng Sun, Hwann Tzong Chen
我们展示了全向神经辐射场Omninerf，这是应用视差的第一种方法使能新的全景观看合成。新型视图综合作品的作品侧重于具有有限视野的透视图像，并且需要在特定条件下捕获足够的图片。相反，omninerf可以为未知的视点生成全景图像，因为单个昼夜互联网作为训练数据。为此，我们建议通过在不同的虚拟相机位置的3D世界和不同的2D全景坐标之间来回突出来增加单个RGB D全景。通过这样做，我们能够优化具有从固定中心的全向视角收集的可见像素的全向神经辐射场，用于估计来自不同的相机位置的新观看角度。因此，所提出的omninerf实现了表现出视差效应的新型全景视图的令人信服的讲话。我们展示了我们对合成和现实世界数据集的每个提案的有效性。

CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze Redirection
Authors Swati Jindal, Xin Eric Wang
凝视重定向的目的是操纵图像的凝视到所需的方向。然而，在生成感知性合理的图像时，现有方法是不充分的。生成的对策网络的进步表明了产生照片现实图像的优异结果。但是，它们仍然缺乏在不同图像属性上提供更精细控制的能力。为了实现这种微调控制，需要获得可以非常昂贵的训练数据的地面真理注释。在本文中，我们提出了一个叫做CUDA GR的无监督域适配框架，该域学会从标记的源域中解散凝视表示，并将它们传送到未标记的目标域。我们的方法在保留人的外观信息的同时使得对凝视方向进行细粒度。我们表明目标域中的生成图像标签对在知识转移中是有效的，并且可以提高下游任务的性能。基准数据集上的广泛实验表明，该方法在定量和定性评估中可以倾向于最突出的技术技术。

Robust Pooling through the Data Mode
Authors Ayman Mukhaimar, Ruwan Tennakoon, Chow Yin Lai, Reza Hoseinnezhad, AlirezaBab Hadiashar
从点云数据中学习的任务始终挑战，由于数据中的噪声和异常值常见。这种数据不准确可以显着影响最深入学习网络的状态和分类或分段对象的能力。虽然有一些强大的深度学习方法，但它们对于实时应用来说是过于昂贵的。本文提出了一种深入的学习解决方案，包括一种新颖的稳健池层，其大大提高了网络鲁棒性，并且比现有方法的状态更快地执行。所提出的汇集层使用两种方法，RANSAC和直方图查找数据A模式群集，因为群集表示模型。我们将汇集层测试成框架，例如基于点和基于曲线图的神经网络，并且与现有技术方法的鲁棒状态相比，测试显示增强的鲁棒性。

Trainable Class Prototypes for Few-Shot Learning
Authors Jianyi Li, Guizhong Liu
公制学习是一种广泛使用的方法，用于几次拍摄学习，其中原型的质量在算法中发挥着关键作用。在本文中，我们提出了用于距离测量的可训练原型，而不是元培训和任务培训框架内的人工。另外，避免缺点，即集中性的荟萃训练带来的，我们采用了基于自我监督学习的非显着元培训。总的来说，我们通过自我监督学习培训可转移特征提取器的两个阶段培训的几个镜头任务，培训测量标准分类。此外，简单的注意机制用于元培训和任务培训。我们的方法在标准的少量拍摄视觉分类数据集中实现了各种既定少量拍摄任务的最新性能，与可用无人监督的少量学习方法相比，大约20个增加。

Interpretable Face Manipulation Detection via Feature Whitening
Authors Yingying Hua, Daichi Zhang, Pengju Wang, Shiming Ge
为什么我们应该相信对被操纵面的深度神经网络的检测理解的原因对于提高检测模型的公平性，可靠性，隐私和信任来说是重要的。在这项工作中，我们提出了一种可解释的面部操纵检测方法来实现可靠性和准确的推理。该方法可以通过嵌入特征美白模块来使面部操纵检测过程透明。该模块旨在通过功能去相关性和特征约束来美白深网络的内部工作机制。实验结果表明，我们所提出的方法可以在检测准确性和模型解释性之间取得平衡。

Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track
Authors Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan
本技术报告将我们的解决方案呈现给HACS时间作用本地化挑战2021，弱监督学习轨道。弱监督时间行动定位的目标是在仅在视频级标签中暂时定位和分类对未经监测视频的感兴趣的行动。我们采用两条流达成网络TSCN作为这一挑战中的主要框架。 TSCN由两个流基础模型训练程序和伪基础学习过程组成。基础模型训练鼓励模型基于单模的单个模态预测可靠的预测，基于该模型，RGB或光流量，基于伪基地的融合，又用作训练基础模型的监督。在HACS V1.1.1数据集上，无需微调特征提取I3D模型，我们的方法在验证集中实现22.20且在平均地图方面的测试集上的21.68。我们的解决方案在这一挑战中排名第2，我们希望我们的方法可以作为未来学术研究的基准。

3D Object Detection for Autonomous Driving: A Survey
Authors Rui Qian, Xin Lai, Xirong Li
自主驾驶被认为是最有前途的救济措施之一，避免严重崩溃。为此，3D对象检测用作这种感知系统的核心基础，特别是为了路径规划，运动预测，碰撞等。通常，具有相应的3D点云的立体声或单眼图像已经是3D对象的标准布局检测，其中点云的点云具有准确的深度信息越来越普遍。尽管现有的努力，由于点云的高稀释和不规则的点云，但是在相机视图和Lidar鸟瞰的光点云之间的高稀释和不规则性，对于模态协同，遮挡和长距离的尺度变化，3D对象检测仍然是其初期的初期。尽那次，在3D对象检测中，已经进行了深刻的进展，具有大量的

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

【AI视野·今日CV 计算机视觉论文速览 第224期】Tue, 22 Jun 2021

相关文章

【AI视野·今日CV 计算机视觉论文速览第224期】Tue, 22 Jun 2021