锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

【AI视野·今日CV 计算机视觉论文速览第159期】Tue, 24 Sep 2019

时间：2022-11-19 23:00:00 mh结构紧凑型传感器 detectors微型传感器

AI视野·今日CS.CV 计算机视觉论文速读
Tue, 24 Sep 2019
Totally 67 papers
?上期速览?更精彩请移动主页

在这里插入图片描述

Interesting:

?点云分割采用基于层次点和边缘交互的网络模型，点云分割问题是通过点与边的上下文关系来探索的。它包括编码器解码器架构和不同层次集成点的边缘分支的特征。分层图网络从粗糙层开始，并随着点的解码过程不断细化。语义标记相连点在最终层的边缘。同时，不同层次的边缘特征也被反馈到点特征上，以提高局域预测效果。点与边分支的互动合作提高了预测效果。(from 香港中文腾讯优图)
下图显示了点分支和边分支在多层次网络中相互传递特征的共同提升:

网络的具体分支如下图所示：

边图中的边模块和点模块：

随着点特征的解码，初始图纸不断细化：

一些实现的语义分割结果：

dataset:S3DIS ScanNet

?ShufflePointNet有效的点云分析是基于组卷机和更宽的编码层，克服很多MLP对于堆叠处理点云的巨大计算，研究人员提出了一个更宽的网络模型，可以利用平行的组卷积和通道混合操作来有效地处理细粒度的局域特征。与最先的MLP与方法相比，该网络将特征分组，网络更宽，每组特征处理的深度非常浅，降低了复杂性，提高了可编码信息。组与组之间的通信通过通道混合建立。这种多分支结构可以有效地提取宽网络的特征。(from Cranfield University)

架构细节：

一些点云分割的结果：

ref:
Fast Hierarchical Neural Network for Feature Learning on Point Cloud
GAPNet,code
Dynamic Graph CNN for Learning on Point Clouds
FoldingNet

?Shadow Transfer, 它提出了一种方法来解决一天中不同光线对场景视觉任务的影响，并重新照亮场景以获得鲁棒的图像。(from 密西根州立)

?****FlatteNet,提出了一种不需要解码的方法，直接将高维输出输入到相应的输出分辨率中。移除解码器后，参数更少、更快。 (from 四川大学)
图中的特征操作包括蓝色深度可分离组卷机和粉色像素混合操作，最终通过后处理得到分割结果。

深度可分离组卷积和pixels shuffle过程：

?****HUSC人体和场景合成, 三维人体与场景合成的新方法包括人体合成、基于几何的人体插入和无缝连接过程，以及屏蔽和光变化。(from Lund University)

人体合成结果：

场景合成结果：

?LoGANv基于条件风格的生成对抗logo
?基于非局域高斯混合模型的图像补充和目标去除
?学习长指纹表达，数据集DeepPrint 和COST A
?风格迁移法提高心血管图像分割效果
?***SkyNet高效的硬件目标检测和跟踪嵌入式系统，(from IBM illinoin)

Daily Computer Vision Papers

Hydrocephalus verification on brain magnetic resonance images with deep convolutional neural networks and "transfer learning" technique
Authors Alexey Demyanchuk, Ekaterina Pushkina, Nikolay Russkikh, Dmitry Shtokalo, Sergey Mishinov
脑积水可以是一种独立的疾病，也可以是各种病理症状，因此，它代表了当今临床实践中的紧迫问题。深度学习是机器学习领域的一部分，是一项不断发展的技术。目前，我们射学领域的深度学习。本研究的目的是利用它MRI脑积水诊断中图像评价深度学习的适用性。我们回顾性地收集、注释和预处理了200例有脑积水放射学迹象的患者的大脑MRI数据。结合最先进的深度卷积神经网络和转移学习方法，训练脑积水分类器模型。利用深度卷积神经网络，我们获得了高质量的机器学习模型。97、98和96准确性、敏感性和特异性分别为97、98和96。在这项研究中，我们证明了使用大脑MRI深层神经网络识别脑积水综合征的能力。应用转移学习技术，虽然训练了相当有限的数据，但仍然实现了高质量的分类。

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation
Authors Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi Wing Fu, Jiaya Jia
通过探索边缘和上下文邻居之间的语义关系D语义场景标记。除了用于预测点标签的编码器解码器分支外，我们还建立了边缘分支，以分层集成点特征并生成边缘特征。为了合并边缘分支中的点特征，我们建立了一个从粗糙层开始并逐渐丰富的分层图框。对于最终图中的每个侧面，我们预测一个标签来指示两个连接点的语义一致性，以增强点预测。在不同层中，边缘特征也被馈送到相应的点模块，以集成上下文信息，以增强当地区域的信息传输。这两个分支相互交互，并在细分中合作。在几个3D语义标签数据集中的体面实验结果证明了我们工作的有效性。

Pelvis Surface Estimation From Partial CT for Computer-Aided Pelvic Osteotomies
Authors Robert Grupp, Yoshito Otake, Ryan Murphy, Javad Parvizi, Mehran Armand, Russell Taylor
当盆腔截骨术进行术中导航时，计算机辅助手术系统通常在术前使用CT扫描。这些系统具有改善盆腔截骨术的安全性和准确性的潜力，但是，将患者暴露于放射线是一个重大缺陷。为了减少辐射暴露，我们提出了一种新的平滑外推方法，采用局部骨盆CT以及完整骨盆的统计形状模型SSM估计患者的完整骨盆。女性骨盆解剖结构正常、完整、完整SSM，并对42名受试者进行了评估。留一法测试表示SSM固有的泛化能力。为了测量平滑外推法和现有剪切粘贴外推法的性能，进行了额外的留一法测试。通过保持患者髋臼的轴向切片完整并在总骨盆范围的0到15之间改变保留的上retained模拟未知解剖结构的数量。与RMS与剪贴法相比，平滑技术是RMS最大表面误差平均增加1.31 mm和3.61 mm。在保留5个the在平滑估计表面的情况下RMS表面误差为2.21 mm，不保留任何东西rest时，改善了1.25 mm。这种解剖估计方法使患者和外科医生受益CAS使用系统，同时减少患者的辐射暴露。

Patch-Based Image Similarity for Intraoperative 2D/3D Pelvis Registration During Periaetabular Osteotomy
Authors Robert Grupp, Mehran Armand, Russell Taylor
髋臼周围截骨术是治疗发展性髋关节发育不良的具有挑战性的外科手术，通过重新定位患者的髋臼提供更大的股骨头覆盖范围。由于在手术流程中经常使用荧光透视成像，因此切骨术和重新定位的髋臼碎片的计算机辅助X射线导航应该是可行的。我们使用基于强度的2D 3D配准估计相对于透视图像的骨盆姿势，恢复多个视图的相对姿势，并对可用于导航的地标进行三角剖分。现有的相似性指标无法始终如一地说明术前完整骨盆与骨折骨盆术中实际情况之间的内在失配。为了减轻这种不匹配的影响，我们不断估计每个像素与解决配准的相关性，并将这些值用作基于补丁的相似性度量中的权重。与现有的基于补丁的方法相比，将计算限制为随机选择的补丁子集可导致更快的运行时间。对随机碎片形状，重定位和荧光透视图进行了仿真研究，与未修补和图像强度方差加权的平均误差分别为3 mm和2.8 mm相比，所提出的方法在所有界标上均实现了1.7 mm的平均三角剖分误差。分别修补相似性指标。

Go Wider: An Efficient Neural Network for Point Cloud Analysis via Group Convolutions
Authors Can Chen, Luca Zanotti Fragonara, Antonios Tsourdos
为了获得更好的点云分析性能，许多研究人员在不规则点云上使用了堆叠的多层Perceptron MLP卷积应用更深的神经网络。但是，在大量点上应用密集的MLP卷积，例如自动驾驶应用导致内存和计算效率低下。为了实现高性能但降低复杂性，我们提出了一种称为ShufflePointNet的深层神经网络，以利用细粒度的局部特征并使用组卷积和通道随机操作来减少并行冗余。与直接将MLP直接应用于点云的高维特征的常规操作不同，我们的模型通过预先将特征分成几组而变得更宽，并且具有较小深度的每个组仅负责各自的MLP操作，这可以降低复杂度并允许编码更有用的信息。同时，我们通过改组特征通道中的组来连接组之间的通信，以捕获细粒度的特征。我们认为，用于更广泛的神经网络的多分支方法也有利于点云的特征提取。我们针对ModelNet40数据集上的形状分类任务和大规模数据集ShapeNet部分，S3DIS和KITTI上的语义分割任务进行了广泛的实验。我们将进一步进行消融研究，并将我们的模型与其他先进算法的复杂性和准确性进行比较。

Model-Based and Data-Driven Strategies in Medical Image Computing
Authors Daniel Rueckert, Julia A. Schnabel
在过去的几十年中，基于模型的图像重建，分析和解释方法取得了重大进展。这些方法很多都基于数学，物理或生物学模型。这些方法的挑战是对基础过程的建模，例如具有适当水平的细节和真实感的图像采集物理学或疾病的病理生理。随着大量成像数据和机器学习（尤其是深度学习技术）的可用性，数据驱动方法已越来越广泛地用于重建，分析和解释的不同任务。这些方法直接从加标签或未加标签的图像数据中学习统计模型，并已显示出从医学成像中提取临床有用信息的强大功能。尽管这些数据驱动的方法通常优于传统的基于模型的方法，但它们的临床部署通常在鲁棒性，泛化能力和可解释性方面提出挑战。在本文中，我们讨论了哪些发展推动了从基于模型的方法向数据驱动的策略的转变，以及哪些潜在的问题与向纯数据驱动的方法（尤其是深度学习）的迁移相关。我们还将讨论数据驱动方法的一些开放挑战，例如泛化为新的看不见的数据，例如转移学习，对抗攻击的鲁棒性和可解释性。最后，我们以讨论这些方法如何导致以端到端的方式优化的更紧密耦合的成像管道的开发作为结束。

Shadow Transfer: Single Image Relighting For Urban Road Scenes
Authors Alexandra Carlson, Ram Vasudevan, Matthew Johnson Roberson
图像中的照明效果（特别是阴影和阴影）已显示出会降低深层神经网络在城市驾驶场景中大量基于视觉的检测，识别和分割任务上的性能。造成此性能差距的一个关键因素是，实际的，带有标签的数据集中缺乏时间多样性。在将以前看不见的视觉效果转移到数据集中，特别是在昼夜转换中，图像到图像转换领域取得了令人瞩目的进步。但是，要限制在训练过程中哪些视觉效果（更不用说照明效果）从一个数据集转移到另一个数据集并不容易。为了解决这个问题，我们提出了一种称为“阴影转移”的深度学习框架，该框架可以通过将逼真的阴影，阴影和其他照明效果转移到单个图像上来重新照亮复杂的室外场景。所提出的框架的新颖之处在于，它既可以自我监督，又可以在自动车辆数据集中容易获得的传感器和标签信息上运行。我们在合成数据集和真实数据集上均显示了该方法的有效性，并提供了实验，证明了该方法所产生的图像的视觉质量要高于现有技术到图像转换方法的水平。

RAUNet: Residual Attention U-Net for Semantic Segmentation of Cataract Surgical Instruments
Authors Zhen Liang Ni, Gui Bin Bian, Xiao Hu Zhou, Zeng Guang Hou, Xiao Liang Xie, Chen Wang, Yan Jie Zhou, Rui Qi Li, Zhen Li
手术器械的语义分割在机器人辅助手术中起着至关重要的作用。然而，由于镜面反射和类别不平衡问题，白内障手术器械的准确分割仍然是一个挑战。在本文中，提出了一种新颖的网络来分割白内障手术器械。它引入了注意力机制来改善特征表示。设计了一个新的注意力模块来学习区分功能。它捕获全局上下文并编码语义相关性以强调关键的语义特征，从而增强了特征表示。该注意模块的参数很少，有助于节省内存。因此，它可以灵活地插入其他网络。此外，引入了混合损失来训练我们的网络来解决类不平衡问题，该问题融合了交叉熵和Dice损失的对数。构建了一个名为Cata7的新数据集来评估我们的网络。据我们所知，这是第一个用于语义分割的白内障手术器械数据集。基于此数据集，RAUNet的平均性能为97.71 Dice，平均IOU为95.62。

Object Segmentation using Pixel-wise Adversarial Loss
Authors Ricard Durall, Franz Josef Pfreundt, Ullrich K the, Janis Keuper
最近基于深度学习的方法在对象分割任务上显示出了惊人的成功。但是，仍然存在进一步改进的空间。受生成对抗网络的启发，我们提出了一种通用的端到端对抗方法，该方法可以与广泛的现有语义分割网络结合以提高其分割性能。我们方法的关键要素是将高分辨率的像素明智损失替换为常用的二进制对抗损失。此外，我们采用随机加权平均方式训练我们的发电机，这进一步增强了预测的输出标签图，从而带来了最新的技术成果。我们显示，与基准模型相比，像素明智的对抗训练和权重平均的这种组合导致了细分性能的显着且一致的提升。

How to improve CNN-based 6-DoF camera pose estimation
Authors Soroush Seifi, Tinne Tuytelaars
卷积神经网络CNN和转移学习最近已用于6自由度6 DoF相机姿态估计。尽管它们不能达到与基于视觉SLAM的方法相同的精度，并且受限于特定的环境，但它们的鲁棒性出色，甚至可以应用于单个图像。在本文中，我们研究PoseNet 1并研究基于数据集特征的修改以提高姿态估计的准确性。特别是，我们强调视野对图像分辨率的重要性，我们提出了一种数据增强方案来减少过度拟合，我们研究了长期短期记忆LSTM细胞的作用。最后，我们结合了这些修改，并改善了基于单眼CNN的相机姿态回归的PoseNet性能。

Human Synthesis and Scene Compositing
Authors Mihai Zanfir, Elisabeta Oneata, Alin Ionut Popa, Andrei Zanfir, Cristian Sminchisescu
能够控制外观，姿势和形状参数的能力的人类产生高质量和几何上合理的合成图像，对于从照片编辑，时尚虚拟试戴到特殊效果和图像压缩等各种任务，已变得越来越重要。在本文中，我们提出了HUSC，这是一种人类合成和场景合成框架，用于在新颖的姿势和场景中逼真地合成具有不同外观的人类。我们公式的核心是对人和场景的3D推理，以便通过正确建模透视效果和遮挡，考虑场景语义并适当处理相对比例来生成逼真的拼贴。从概念上讲，我们的框架由三个部分组成：1是基于参数表示的具有可控姿势和外观的可控人体图像合成模型； 2是利用3d场景的几何形状和语义的人员插入过程； 3是外观合成过程以创建一个场景颜色与生成的人类图像之间的无缝融合，并避免视觉伪影。定性和定量结果都支持我们框架的性能，尤其是DeepFashion数据集的最新综合得分。

Predicting Landscapes from Environmental Conditions Using Generative Networks
Authors Christian Requena Mesa, Markus Reichstein, Miguel Mahecha, Basil Kraft, Joachim Denzler
景观是有意义的生态单元，在很大程度上取决于环境条件。自从地球科学开始以来，景观与环境之间的这种依赖性就得到了关注，并被注入描述气候，地质，植被和地貌之间相互依赖性的概念模型中。在这里，我们问是否可以根据相关环境条件从空间上对景观进行统计预测。为此，我们采用了深度学习生成模型，以建立环境条件与Sentinel 2卫星的景观之间的关系。我们训练了条件生成对抗网络，以根据一组气候，地形和人为预测因素生成多光谱图像。生成的景观图像与真实图像具有许多特征。基于景观斑块度量标准的结果（表明景观组成和结构）表明，所提出的生成模型创建的景观比基准模型更接近目标，而总反射率和植被覆盖度得到了更好的预测。我们证明，出于许多目的，所生成的景观在直接应用于全球变化研究时表现得真实。我们设想将机器学习作为一种工具来预测气候变化对景观空间特征的影响，同时评估其局限性和突破点。

Large Scale Joint Semantic Re-Localisation and Scene Understanding via Globally Unique Instance Coordinate Regression
Authors Ignas Budvytis, Marvin Teichmann, Tomas Vojir, Roberto Cipolla
在这项工作中，我们提出了一种新颖的方法来进行联合语义本地化和场景理解。我们对工作的兴趣来自对定位算法的需求，这些算法不仅可以预测6个自由度的摄像机姿态，还可以同时识别周围的物体并估算3D几何形状。这种功能对于与环境自动驾驶，增强现实和机器人技术交互的计算机视觉引导系统至关重要。特别是，我们提出了一个两步过程。在第一步中，我们训练卷积神经网络以共同预测每个像素的全局唯一实例标签和静态对象的每个实例的相应局部坐标，例如建筑。在第二步中，我们通过组合对象中心坐标和局部坐标来获取场景坐标，并使用它们执行6 DoF相机姿态估计。我们对真实世界的CamVid 360和人工SceneCity自动驾驶数据集进行评估。我们获得了比现有技术6 DoF姿态估计算法更小的平均距离和角度误差，该技术基于直接姿态回归和所有数据集上场景坐标的姿态估计而构成。我们的贡献包括将场景坐标回归作为两个单独的对象实例识别和局部坐标回归任务来进行新颖的表述，并证明了我们提出的解决方案可以预测静态对象的精确3D几何形状并估计ii地图上相机的6 DoF姿态，其放大倍数更大。比以前通过场景坐标回归方法以及在iii轻量级，近似3D地图（由3D图元构建的）（例如，构建对齐的长方体）上尝试的数量级大几个数量级。

Scheduled Differentiable Architecture Search for Visual Recognition
Authors Zhaofan Qiu, Ting Yao, Yiheng Zhang, Yongdong Zhang, Tao Mei
卷积神经网络CNN被认为是解决视觉识别问题的能力强大的一类模型。但是，开发通用而强大的网络体系结构并非易事，这需要人类专家的大量努力。在本文中，我们介绍了一种在可微体系结构搜索DAS模具上自动探索体系结构的新思路，该体系具有通过梯度下降的有效搜索。具体来说，我们提出了针对图像和视频识别的计划可区分架构搜索SDAS，可将训练期间的操作选择与计划很好地集成在一起。从技术上讲，体系结构或单元表示为有向图。我们的SDAS以渐进和计划的方式逐渐将操作固定在图形的边缘，而不是一旦在现有DAS中完成训练后就一步一步确定所有边缘的操作，这可能会使体系结构变得脆弱。此外，我们通过设计一些独特的操作来编码时空动态，并展示了影响SDAS架构搜索的影响，从而扩大了SDAS的搜索空间，尤其是用于视频识别的搜索空间。在CIFAR10，Kinetics10，UCF101和HMDB51数据集上进行了架构学习的广泛实验，与DAS方法相比，其结果更为出色。更为明显的是，我们的SDAS的搜索速度比DAS快2倍左右。当将CIFAR10和Kinetics10上的学习单元分别转移到大规模ImageNet和Kinetics400数据集时，构建的网络也优于几种最先进的手工结构。

Deep Convolutions for In-Depth Automated Rock Typing
Authors E.E. Baraboshkin, L.S. Ismailova, D.M. Orlov, E.A. Zhukovskaya, G.A. Kalmykov, O.V. Khotylev, E.Yu. Baraboshkin, D.A. Koroteev
地质学家日常工作中最耗时的任务之一是对岩石进行描述，尤其是在进行非常精确的描述时。在这里，我们提出了一种有助于最大程度提高地质学家效率并减少描述岩石时间的方法。我们描述了基于颜色分布分析和特征提取的方法的应用，以及基于卷积神经网络的新方法。我们使用了几种著名的神经网络架构AlexNet，VGG，GoogLeNet，ResNet并对其性能进行了比较。在使用GoogLeNet架构的验证集上，算法的精度高达95。所提出的算法中最好的算法可以在一分钟内以自动模式描述50 m的全尺寸磁芯。

WiCV 2019: The Sixth Women In Computer Vision Workshop
Authors Irene Amerini, Elena Balashova, Sayna Ebrahimi, Kathryn Leonard, Arsha Nagrani, Amaia Salvador
在本文中，我们将与CVPR 2019联合举办``2019年计算机视觉中的女性研讨会''。该活动旨在提高计算机视觉领域中女性研究人员的知名度和包容性。在过去的几年中，计算机视觉和机器学习取得了令人难以置信的进步，但是在学术界和行业中，女性研究人员的数量仍然很少。 WiCV之所以组织起来，主要是出于以下原因，以提高女性研究人员的知名度，加强他们之间的合作并为该领域的女性初级研究人员提供指导。在本文中，我们将介绍过去几年的趋势报告，以及有关当前研讨会的演讲者，出席者和赞助情况的统计摘要。

Learning Coupled Spatial-temporal Attention for Skeleton-based Action Recognition
Authors Jiayun Wang
在本文中，我们提出了一种基于骨架的动作识别的耦合时空注意CSTA模型，旨在同时找出时空域中最具区分性的关节和帧。常规方法通常认为骨骼序列中的所有关节或框架都同样重要，对于歧义和多余的信息而言，这些关节或框架不那么重要。为了解决这个问题，我们首先通过两个子网分别为不同的关节和框架学习两组权重，这使模型能够关注相对信息丰富的部分。然后，我们基于关节和框架的权重计算空间乘积，以求出叉积。此外，我们的CSTA机制可轻松插入现有的分层CNN模型CSTA CNN中以实现其功能。在最近收集的UESTC数据集和当前最大的NTU数据集上的大量实验结果表明，我们提出的基于骨骼的动作识别方法的有效性。

Retrieval-based Localization Based on Domain-invariant Feature Learning under Changing Environments
Authors Hanjiang Hu, Hesheng Wang, Zhe Liu, Chenguang Yang, Weidong Chen, Le Xie
视觉本地化是移动机器人和自动驾驶中的关键问题。一种解决方案是从数据库中检索具有已知姿势的图像，以对查询图像进行本地化。但是，在条件急剧变化的环境中，例如光照变化，季节，遮挡，动态物体，基于检索的本地化受到严重阻碍，并成为一个具有挑战性的问题。本文提出了一种基于多域图像翻译网络体系结构ComboGAN的领域不变特征学习方法。通过在另一个域的原始图像和翻译图像的编码特征之间引入特征一致性损失FCL，我们能够训练编码器以自我监督的方式生成域不变特征。为了从数据库检索目标图像，首先使用属于查询域的编码器对查询图像进行编码，以获得域不变特征向量。然后，我们通过选择具有最相似的领域不变特征向量的数据库图像来进行检索。我们在CMU Seasons数据集上验证了所提出的方法，该方法在高中精度场景的基于检索的本地化中表现优于基于学习的描述符。

Smooth Extrapolation of Unknown Anatomy via Statistical Shape Models
Authors Robert Grupp, Hsin Hong Chiang, Yoshito Otake, Ryan Murphy, Chad Gordon, Mehran Armand, Russell Taylor
评估了执行未知解剖结构外推的几种方法。主要应用是增强可使用部分医学图像或不完整解剖学医学图像的外科手术程序。基于勒堡的面部颌骨牙齿移植就是这样一种程序。根据36个头骨和21个下颌骨的CT数据，分别创建了解剖表面的统计形状模型。使用统计形状模型，对不完整的表面进行投影以获得完整的表面估计。表面估计在已知真实表面的区域中显示出非零误差，希望保留真实表面并无缝地合并估计的未知表面。现有的外推技术会导致从真实表面到估计表面的非平滑过渡，从而导致附加误差和美学上不太令人满意的结果。评估的三种外推技术是复制和粘贴表面估计值（非平滑基线），患者表面和表面估计值之间的羽化以及通过薄板样条生成的估计值，该样条是根据已知患者的表面估计值和相应顶点之间的位移训练的表面。羽化和薄板样条曲线方法均可产生平滑过渡。但是，羽化会破坏已知的顶点值。进行了遗漏的分析，从遗留的患者中取出了5至50个已知的解剖结构，并通过提出的方法进行了估算。薄板样条线方法产生的误差比其他两种方法小，与基线方法相比，颅骨和下颌骨的平均顶点误差分别提高了1.46毫米和1.38毫米。

Robust Local Features for Improving the Generalization of Adversarial Training
Authors Chubiao Song, Kun He, Jiadong Lin, Liwei Wang, John E. Hopcroft
对抗训练已被证明是训练健壮模型以对抗对抗示例的最有效方法之一。但是，对抗训练通常缺乏对看不见的数据的对抗性强健的概括。最近的工作表明，经过对抗训练的模型可能更偏向于全局结构特征。相反，在这项工作中，我们想研究对抗训练的泛化与鲁棒的局部特征之间的关系，因为局部特征很好地概括了看不见的形状变化。为了学习鲁棒的局部特征，我们开发了一种随机块随机RBS变换来分解正常对抗示例中的全局结构特征。我们继续提出一种新的方法，称为对抗训练的鲁棒局部特征RLFAT，该方法首先通过对RBS转换后的对抗示例进行对抗训练来学习鲁棒的局部特征，然后将稳健的局部特征转换为常规对抗示例的训练。最后，我们在两个当前最先进的对抗训练框架中实施RLFAT。在STL 10，CIFAR 10，CIFAR 100数据集上进行的大量实验表明，RLFAT改进了对抗性强大的概括以及对抗性训练的标准概括。此外，我们证明了我们的方法可以捕获对象的更多局部特征，从而更好地与人类感知保持一致。

Validation of image-guided cochlear implant programming techniques
Authors Yiyuan Zhao, Jianing Wang, Rui Li, Robert F. Labadie, Benoit M. Dawant, Jack H. Noble
耳蜗植入物CIs是严重或严重听力损失患者的标准治疗方法。最近的研究表明，听力结果与耳蜗内解剖结构和电极位置相关。我们的小组已开发出图像引导CI编程IGCIP技术，该技术使用图像分析方法对植入前或植入后CT图像中的内耳结构进行分割，并在植入后CT图像中定位CI电极。通过建议应停用哪些触点以减少已知会影响结果的电极相互作用，这可以帮助听力学家进行CI编程。临床研究表明，IGCIP可以改善CI接受者的听力结果。然而，IGCIP相对于电极定位和耳蜗内部解剖分割这两个主要步骤的准确性的敏感性是未知的。在本文中，我们使用35个颞骨标本的常规CT和微型CT图像创建了一个地面真实数据集，以严格刻画这两个步骤的准确性，并评估这些步骤中的不准确性如何影响总体结果。我们的研究结果表明，当有植入前和植入后的临床CT可用时，IGCIP所产生的结果可与86.7名接受测试的受试者使用相应的基本事实得出的结果相媲美。当只有植入后CT可用时，该数字为83.3。这些结果表明，我们当前的方法对分割和定位错误具有鲁棒性，而且可以对其进行改进。

Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network
Authors Qingxing Cao, Bailin Li, Xiaodan Liang, Liang Lin
解释和高阶推理能力对于现实世界中具有不同级别的推理复杂性的视觉问题回答至关重要，例如，与女孩一起玩耍的狗附近的狗是什么，对于用户理解和诊断系统的可信赖性很重要。当前在自然图像上的VQA基准仅具有准确性度量标准，最终迫使模型利用数据集偏差，并且无法提供任何可解释的理由，这在一定程度上阻碍了高级问答的发展。在这项工作中，我们提出了一种新的HVQR基准，用于评估具有三个可区分优点的可解释性和高级视觉问题推理能力1问题通常包含一两个关系三胞胎，这要求模型具有多步推理能力以预测合理答案2我们对使用图像场景图和常识性知识库构建的多步推理过程进行了显式评估，3大规模知识库中的每个关系三元组在所有问题中仅出现一次，这对经常尝试尝试解决现有网络的现有网络构成了挑战过度拟合已出现在训练集中的知识库，并强制执行模型以处理看不见的问题和知识事实用法。我们还提出了一种新的知识路由模块化网络KM网络，该网络将基于大型知识库的多步推理过程纳入了可视化问题推理。广泛的数据集分析和与HVQR基准上现有模型的比较表明，我们的基准提供了可解释的评估，全面的推理要求和VQA系统的实际挑战，以及我们的KM网络在准确性和解释能力方面的优越性。

Field typing for improved recognition on heterogeneous handwritten forms
Authors Ciprian Tomoiaga 1 , Paul Feng 1 , Mathieu Salzmann 2 , Patrick Jayet 1 1 AXA REV Lausanne, 2 CVLab EPFL Switzerland
离线手写识别在过去的几十年中一直在不断发展。但是，现有方法通常以自由格式文本数据集为基准，这些数据集倾向于高质量的图像和手写样式以及均质的内容。在本文中，我们表明采用长期短期记忆LSTM层的先进算法由于其高度异构且词汇量不够以及固有的特性，因此不易推广到现实世界中的结构化文档（例如表单）此内容含糊不清。为了解决这个问题，我们建议在基于LSTM的体系结构中利用内容类型。此外，我们介绍了一种生成合成数据的过程，以训练该体系结构而无需昂贵的手动注释。我们证明了我们的方法在具有挑战性的，真实的欧洲事故声明数据集上转录文本时的有效性。

mlVIRNET: Multilevel Variational Image Registration Network
Authors Alessa Hering, Bram van Ginneken, Stefan Heldmann
我们为基于深度学习的图像配准提出了一种新颖的多级方法。最近发布的基于深度学习的注册方法已针对多种任务显示出令人鼓舞的结果。但是，这些算法仍限于相对较小的变形。我们的方法通过引入一个多级框架来解决此缺点，该框架类似于常规方法，可以在不同尺度上计算变形场。由此，首先获得粗略的水平对准，其随后在较细的水平上得到改善。我们证明了在吸气以呼气肺注册这一复杂任务上的方法。我们表明，深度学习多级方法的使用可显着改善注册结果。

Tag-based Semantic Features for Scene Image Classification
Authors Chiranjibi Sitaula, Yong Xiang, Anish Basnet, Sunil Aryal, Xuequan Lu
现有的图像特征提取方法主要基于图像的内容和结构信息，很少考虑上下文语义信息。关于诸如场景和对象的某些类型的图像，在网络上可用的图像的注释和描述可以提供用于特征提取的可靠的上下文语义信息。在本文中，我们基于在网络上可用的类似图像的注释和描述，介绍了图像的新颖语义特征。具体来说，我们提出了一种新方法，该方法由两个连续的步骤组成，以提取我们的语义特征。对于训练集中的每个图像，我们首先从互联网上搜索前k个最相似的图像，然后提取它们的注释描述，例如标签或关键字。注释信息用于为每个图像类别设计一个滤波器组，并生成滤波器词码本。最后，每个图像都由所有类别中过滤词出现的直方图表示。我们在三个常用的场景图像数据集（即MIT 67，Scene15和Event8）上评估了场景图像分类中建议功能的性能。我们的方法通常会产生比现有特征提取方法更低的特征维。实验结果表明，与基于视觉和基于标签的特征相比，与基于深度学习的特征相比，所提出的特征具有更好的分类准确性。

Double Anchor R-CNN for Human Detection in a Crowd
Authors Kevin Zhang, Feng Xiong, Peize Sun, Li Hu, Boxun Li, Gang Yu
由于遮挡模式的不确定性，在人群中检测人类是一个具有挑战性的问题。在本文中，我们建议通过利用头部来解决人体检测中的人群遮挡问题。开发了Double Anchor RPN，可以成对捕获身体和头部。引入了提案交叉策略以生成两个部分的高质量提案，作为培训的补充。然后，可以有效地汇总已耦合提案的特征，以利用固有关系。最后，开发了联合NMS模块以进行可靠的后处理。提议的框架称为Double Anchor R CNN，能够在拥挤的场景中同时检测每个人的身体和头部。在具有挑战性的人体检测数据集上报告了最新的技术成果。我们的模型在CrowdHuman上的对数平均未命中率MR为51.79pp，在COCOPersons拥挤的子数据集上为55.01pp，在CrowdPose拥挤的子数据集上为40.02pp，分别比之前的基线检测器高3.57pp，3.82pp和4.24pp。我们希望我们简单有效的方法将成为坚实的基准，并有助于简化将来在拥挤的人类检测中的研究。

Variational Conditional GAN for Fine-grained Controllable Image Generation
Authors Mingqi Hu, Deyu Zhou, Yulan He
在本文中，我们为条件GAN提出了一种新颖的变分生成器框架，以捕获语义细节以提高生成质量和多样性。条件GAN中的传统生成器只是将条件向量与噪声作为输入表示进行连接，直接将其用于上采样操作。但是，隐藏条件信息并未得到充分利用，尤其是当输入是类标签时。因此，我们将变分推理引入生成器中，以仅从条件输入中推断潜在变量的后验，这有助于实现用于图像生成的变量增强表示。定性和定量的实验结果表明，所提出的方法优于现有技术的方法并获得了逼真的可控图像。

Pixel-Level Dense Prediction without Decoder
Authors Xin Cai, Yi Fei Pu
诸如关键点估计之类的像素级密集预测任务由编码器解码器结构控制，其中作为重要组成部分的解码器是复杂且计算量大的。相比之下，我们提出了一种称为FlatteNet的完全解码的自由像素级密集预测网络，其中直接将由骨干网输出的高维张量展平以适合所需的输出分辨率。拟议的FlatteNet具有端到端的差异性。通过删除解码器单元，FlatteNet需要更少的参数和更低的计算复杂度。我们通过在MPII上的人体姿势估计，PASCAL上下文上的语义分割以及PASCAL VOC上的对象检测方面的竞争性结果，通过竞争性结果证明了所提出网络的有效性。我们希望所提出的FlatteNet可以作为当前基于主流解码器的像素级密集预测网络的简单而强大的替代方案。

Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators
Authors Kuang Huei Lee, Hamid Palangi, Xi Chen, Houdong Hu, Jianfeng Gao
使语言与视觉关系扎根对于各种语言和视觉应用至关重要。在这项工作中，我们解决了两个基本的语言和视觉任务，即图像文本匹配和图像字幕，并证明了神经场景图生成器可以学习有效的视觉关系特征，从而促进了语言与视觉关系的基础，从而改善了两个最终应用。通过将关系特征与最新模型相结合，我们的实验显示出对标准Flickr30K和MSCOCO基准的显着改进。我们的实验结果和分析表明，关系特征提高了下游模型在最终视觉和语言应用中捕获视觉关系的能力。我们还证明了学习具有视觉相关关系的场景图生成器对关系特征的有效性的重要性。

Semi-supervised estimation of event temporal length for cell event detection
Authors Ha Tran Hong Phan, Ashnil Kumar, David Feng, Michael Fulham, Jinman Kim
细胞视频中的细胞事件检测对于长时间监控细胞行为至关重要。与传统方法相比，深度学习方法在捕获细胞事件方面已显示出巨大的成功，因为它们能够捕获细胞过程的更多判别特征。特别地，利用在视频序列中可观察到的细胞事件变化的卷积长期短期记忆LSTM模型是用于细胞视频中有丝分裂检测的最新技术。但是，它们的局限性在于确定输入序列长度（通常凭经验进行），并且需要准备大笔费用的带注释的训练数据集。我们提出了一种新颖的半监督方法，用于有丝分裂检测的最佳长度检测，具有两个关键作用：一个非监督步骤，用于学习正常阶段细胞的空间和时间位置，并估算细胞事件的时间长度分布，并且从该分布推断出用于训练每个特定视频的LSTM模型的最佳输入序列长度和最少数量的带注释帧。我们在相衬显微镜视频中评估了在密集包装的干细胞中检测有丝分裂的方法。我们的实验数据证明，增加LSTM的输入序列长度会导致性能下降。我们的结果还表明，通过近似测试视频的最佳输入序列长度，仅训练了18个带注释帧的模型的F1分数为0.880 0.907，这比其他公开方法（含110个带注释的训练集）的F1分数高10帧。

To What Extent Does Downsampling, Compression, and Data Scarcity Impact Renal Image Analysis?
Authors Can Peng, Kun Zhao, Arnold Wiliem, Teng Zhang, Peter Hobson, Anthony Jennings, Brian C. Lovell
肾脏直接免疫荧光DIF标本中的肾小球或滤袋的状况是诊断肾脏疾病的关键指标。数字病理系统将玻璃组织学玻片数字化为整个玻片图像WSI，然后自动检测并放大具有较高放大倍率的肾小球，这对病理学家将非常有帮助。本文以肾小球检测为研究案例，对一些重要问题进行分析和观察，以帮助开发用于处理WSI的计算机辅助诊断CAD系统。较大的图像分辨率，较大的文件大小和数据稀缺总是很难解决的。为此，我们首先根据图像下采样率对检测精度的影响来进行研究。其次，我们检查图像压缩的影响。第三，我们检查训练集的大小和检测精度之间的关系。为了解上述问题，我们对最先进的检测器Faster R CNN，R FCN，Mask R CNN和SSD进行了实验。观察到了关键的发现1检测精度，检测速度和文件大小之间的最佳平衡是使用40倍目标压缩捕获的8倍下采样获得的2压缩显着减小了文件大小，并不一定会对总体准确性产生不利影响3减小训练数据的数量在一定程度上导致精度下降，但对召回率的影响可忽略不计4，Faster R CNN在肾小球检测任务中获得最佳准确性。我们显示，可以将40倍WSI图像的图像文件大小减少6000倍，而肾小球检测准确性的损失可忽略不计。

Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning
Authors Tanzila Rahman, Bicheng Xu, Leonid Sigal
多模态学习，尤其是在图像和语言模态中，在从语言基础到密集事件字幕的许多高级基本视觉理解问题上取得了惊人的进步。但是，许多研究仅限于要么根本不考虑与视频相对应的音频，要么为声音或声源定位服务而对视听相关性进行建模的方法。在本文中，我们提供了证据，当涉及高级视觉语言任务时，音频信号可以携带大量信息。具体来说，我们关注视频中弱监督密集事件字幕的问题，并表明音频本身可以与最先进的视觉模型的性能相媲美，并且与视频相结合可以改善最新的性能。在ActivityNet Captions数据集上的大量实验表明，我们提出的多模式方法优于现有的单模式方法，并且可以验证特定的特征表示和体系结构设计选择。

Structured Binary Neural Networks for Image Recognition
Authors Bohan Zhuang, Chunhua Shen, Mingkui Tan, Lingqiao Liu, Ian Reid
我们提出了利用二值化权重和激活性来训练卷积神经网络CNN的方法，从而导致了量化模型，该模型特别适合功率能力和计算资源有限的移动设备。先前有关CNN量化的工作通常试图使用一组离散值来近似浮点信息，我们称之为值近似，通常假设与全精度网络具有相同的体系结构。在这里，我们采用一种新颖的量化结构近似视图，很可能为低位网络设计的不同体系结构可能会更好地实现良好的性能。特别是，我们提出了一种称为组网的网络分解策略，该策略将网络划分为多个组。因此，通过聚集一组同构的二进制分支可以有效地重建每个全精度组。此外，我们学习了群体之间的有效联系以提高代表能力。此外，建议的Group Net对其他任务也具有很强的概括性。例如，我们通过将丰富的上下文嵌入到二进制结构中来扩展Group Net以进行准确的语义分割。此外，我们第一次将二进制神经网络应用于对象检测。分类，语义分割和对象检测任务的实验证明了所提出的方法在文献中的各种量化网络上的优越性能。在准确性和计算效率方面，我们的方法优于以前最好的二进制神经网络。

Nonlocal Patches based Gaussian Mixture Model for Image Inpainting
Authors Wei Wan, Jun Liu
我们考虑了噪点图像的修复问题。在处理图像修复时，抑制噪声非常困难。提出了一种基于图像补丁的非局部变分方法来同时修复和去噪。我们的方法是在假设小图像块应服从可以由高维高斯混合模型描述的分布的假设下开发的。通过最大后验MAP估计，我们根据混合模型的对数似然函数制定了新的正则化项。为了有效地优化此正则项，我们采用了Expectation Maximum EM算法的想法。其中，期望步骤可以给出自适应加权函数，该加权函数可以被视为像素之间的非本地连接。利用这一事实，我们建立了一个在噪声下进行非局部图像修复的框架。此外，我们在数学上证明了所提出的修复模型存在最小化器。通过使用分散算法，该模型能够同时实现图像修复和去噪。数值结果表明，该方法可以在修复区域较大时产生令人印象深刻的重建效果。

Volume Preserving Image Segmentation with Entropic Regularization Optimal Transport and Its Applications in Deep Learning
Authors Haifeng Li, Jun Liu, Li Cui, Haiyang Huang, Xue cheng Tai
具有体积约束的图像分割对于许多实际应用而言是重要的先决条件。在这项工作中，我们提出了一种新的体积保留图像分割算法，该算法基于熵正则化最优输运理论的框架。将经典的Total Variation TV正则化器和体积保留功能集成到正则化的最优运输模型中，并且可以将体积和分类约束视为最优运输问题中保留约束的两种措施。通过研究对偶问题，我们为模型开发了一种简单有效的对偶算法。此外，与许多基于变分的图像分割算法不同，该算法可直接展开到新的“体积保留和电视正则化softmax VPTV softmax”层，以在流行的深度卷积神经网络DCNN中进行语义分割。实验结果表明，我们提出的模型具有很强的竞争性，可以提高许多语义分割网的性能，例如流行的U网。

Learning a Fixed-Length Fingerprint Representation
Authors Joshua J. Engelsma, Kai Cao, Anil K. Jain
我们介绍了DeepPrint，这是一个深度网络，可学习提取仅200字节的固定长度指纹表示形式。 DeepPrint将指纹对齐域知识（包括对齐和细节检测）整合到深度网络体系结构中，以最大程度地发挥其表示能力。紧凑的DeepPrint表示相对于流行的可变长度细节表示具有多个优点，后者需要计算上昂贵的图形匹配技术，ii难以使用强大的加密方案（例如，同构加密，并且iii在细节提取不可靠的劣质指纹中具有较低的判别能力。我们根据NIST和FVC评估中两个最出色的COTS SDK Verifinger和Innovatrics对DeepPrint进行了基准测试。结合重新排序方案，NIST SD4数据集对110万个指纹库的DeepPrint排名1搜索准确性可与顶级COTS匹配器相比，但在0.3秒之内，DeepPrint 98.80的速度要快得多，而在27秒内的COTS A 98.85的速度要快得多。秒。就我们所知，DeepPrint表示形式是学术文献中报告的最紧凑和最具区别性的固定长度指纹表示形式。

Efficient Surface-Aware Semi-Global Matching with Multi-View Plane-Sweep Sampling
Authors Boitumelo Ruf, Thomas Pollok, Martin Weinmann
使用结构信息在线增加倾斜的航拍图像序列是3D场景解释和分析过程中的重要方面。其中一个关键方面是有效的密集图像匹配和深度估计。在此，Semi Global Matching SGM方法已被证明是用于有效深度估计的最广泛使用的算法之一，可以在精度和计算复杂性之间取得良好的平衡。但是，SGM仅对一阶平滑度假设建模，因此倾向于正面平行曲面。在这项工作中，我们提出了一种分层算法，该算法允许有效的深度和法线贴图估计以及每个估计的置信度。我们的算法依赖于平面扫描多图像匹配，然后是扩展的SGM优化，该优化允许并入局部表面方向，从而在由倾斜的航空影像所固有的倾斜表面组成的区域中实现了更加一致和准确的估算。我们使用绝对和相对精度度量对两个不同的数据集评估算法的众多配置。在我们的评估中，我们证明了我们方法的结果与通过Motion SfM管道（例如COLMAP）的精制结构所实现的结果可比，后者是为脱机处理而设计的。但是，相比之下，我们的方法仅考虑输入序列的受限图像束，因此允许以1Hz 2Hz进行在线和增量计算。

Learning Dense Voxel Embeddings for 3D Neuron Reconstruction
Authors Kisuk Lee, Ran Lu, Kyle Luther, H. Sebastian Seung
我们显示通过深度度量学习学习到的密集体素嵌入可用于从3D电子显微镜图像产生神经元的高精度分割。可以根据卷积网络生成的密集嵌入来构造任意一组短边和长边的度量图。将具有远距离亲和力的度量图划分为排斥性约束可以产生具有高精确度的初始分割，并且对非常薄的对象进行了实质性的改进。卷积嵌入网络无需修改即可重复使用，以凝聚由复杂的自接触物体引起的系统性分裂。我们提出的方法在通过串行截面电子显微镜获取的大脑图像中对3D神经元重建这一具有挑战性的问题上实现了最先进的准确性。我们的替代性，以对象为中心的表示形式可能对自动神经电路重构中的其他计算任务更为有用。

Advances in Computer-Aided Diagnosis of Diabetic Retinopathy
Authors Saket S. Chaturvedi, Kajol Gupta, Vaishali Ninawe, Prakash S. Prasad
糖尿病性视网膜病是一个严重的健康问题，影响全世界1亿人，而且预计这一数字还会上升，特别是在亚洲。糖尿病性视网膜病是一种慢性眼病，可导致不可逆的视力丧失。考虑到视网膜图像的视觉复杂性，糖尿病性视网膜病变的早期诊断对人类专家可能具有挑战性。但是，早期发现糖尿病性视网膜病可以大大避免永久性视力丧失。计算机辅助检测系统准确有效地检测糖尿病性视网膜病变的能力已在研究人员中普及。在这篇评论文章中，文献搜索是在PubMed，Google Scholar，IEEE Explorer上进行的，重点是使用机器学习或深度学习算法的计算机辅助检测糖尿病性视网膜病变。此外，本研究还探讨了用于糖尿病视网膜病变计算机辅助诊断的典型方法。本文旨在指导研究人员当前方法的局限性，并确定该领域的特定领域以促进未来的研究。

Class Activation Map generation by Multiple Level Class Grouping and Orthogonal Constraint
Authors Kaixu Huang, Fanman Meng, Hongliang Li, Shuai Chen, Qingbo Wu, King N.Ngan
类激活图CAM基于分类网络突出显示类的区域，该类网络广泛用于弱监督任务中。但是，面临的问题是，类激活区域通常较小且局部。尽管为第二步所做的一些努力已使CAM生成步骤部分地增强了生成，但我们认为，这种问题也是由第一步训练步骤引起的，因为在整个类上训练的单个分类模型包含限制对象区域的有限区分信息萃取。为此，本文通过使用多个分类模型解决了CAM的生成问题。为了形成承载不同判别信息的多个分类网络，我们尝试捕获类之间的语义关系以形成不同语义级别的分类模型。具体而言，基于类关系的层次聚类用于形成层次聚类结果，其中聚类级别被视为语义级别以形成分类模型。此外，提出了一种新的正交模块和基于两分支的CAM生成方法来生成正交且互补的类区域。我们使用PASCAL VOC 2012数据集来验证所提出的方法。实验结果表明，我们的方法改善了CAM的生成。

Invasiveness Prediction of Pulmonary Adenocarcinomas Using Deep Feature Fusion Networks
Authors Xiang Li, Jiechao Ma, Hongwei Li
使用计算机断层扫描CT成像对肺腺癌的病理学浸润性进行早期诊断将改变腺癌的治疗过程，从而改善预后。大多数现有系统仅使用常规的放射线学功能或深度学习功能来预测侵袭性。在这项研究中，我们探索了两种功能的融合，并声称放射线学功能可以与深度学习功能互补。提出了一种有效的深度特征融合网络，以利用两种特征之间的互补性，从而提高了入侵性预测结果。我们收集了一个私人数据集，其中包含来自合作医院的676例患者的肺部CT扫描，这些患者分为四种侵入性类型。对这个数据集的评估证明了我们建议的有效性。

Automatic Posture and Movement Tracking of Infants with Wearable Movement Sensors
Authors Manu Airaksinen, Okko R s nen, Elina Il n, Taru H yrinen, Anna Kivi, Viviana Marchi, Anastasia Gallen, Sonja Blom, Anni Varhe, Nico Kaartinen, Leena Haataja, Sampsa Vanhatalo
婴儿的自发运动反映了大脑网络的完整性，因此也预测了更高认知功能的未来发展。早期识别运动发育受损的婴儿有望为早期治疗提供指导，以改善终生的神经认知结果。然而，以客观和定量的方式评估运动表现一直是一项挑战。新颖的可穿戴技术已显示出有望在运动评估中提供高效，可扩展和自动化的方法。在这里，我们描述了一种婴儿可穿戴，多传感器智能连身衣的开发，该连身衣允许在独立运动中收集移动数据。然后，使用多个人类注释对基于卷积神经网络CNN的深度学习算法进行了训练，这些注释在运动分类中纳入了本质上的固有歧义。我们还量化了人类观察者的实质模糊性，从而将其转移到改进自动分类器中。对不同传感器配置和分类器设计的比较表明，四肢记录和端到端CNN分类器体系结构可实现最佳运动分类。我们的结果表明，可以以人类等效的精度对独立运动的活动进行定量跟踪，即它符合婴儿姿势和运动分类中人与人之间的协议水平。

CANZSL: Cycle-Consistent Adversarial Networks for Zero-Shot Learning from Natural Language
Authors Zhi Chen, Jingjing Li, Yadan Luo, Zi Huang, Yang Yang
现有的使用生成对抗方法进行零镜头学习ZSL的方法旨在通过单一生成网络从类语义中生成逼真的视觉特征，而该网络受到严重限制。结果，先前的方法不能保证所生成的视觉特征能够如实反映相应的语义。为了解决这个问题，我们提出了一种新的方法，称为零散学习CANZSL的循环一致对抗网络。它鼓励视觉特征生成器从语义上合成现实的视觉特征，然后通过语义特征生成器将合成后的视觉特征逆转换回相应的语义空间。此外，本文考虑了更具挑战性和实用性的ZSL问题，其中原始语义来自带有不相关单词的自然语言，而不是先前工作中广泛使用的纯语义。具体来说，训练多模式一致双向生成对抗网络，以利用自然语言中的噪声来处理看不见的实例。从一个文本描述到多个视觉特征的正向一对多映射与从视觉空间到语义空间的反向多对一映射相结合。因此，可以学习并利用合成语义表示和基本事实之间的多模式循环一致性损失，并强制实施生成的语义特征以近似于语义空间中的实际分布。进行了广泛的实验以证明我们的方法在基于自然语言的零击学习任务上始终优于最新方法。

Visual Odometry Revisited: What Should Be Learnt?
Authors Huangying Zhan, Chamara Saroj Weerasekera, Jiawang Bian, Ian Reid
在这项工作中，我们提出了一种单眼视觉测距VO算法，该算法利用了基于几何的方法和深度学习。现有的大多数具有卓越性能的VO SLAM系统都是基于几何形状的，必须针对不同的应用场景进行精心设计。而且，大多数单眼系统遭受水垢漂移问题。最近的一些深度学习工作以端到端的方式学习VO，但是这些深度系统的性能仍无法与基于几何的方法相提并论。在这项工作中，我们将重温VO的基础知识，并探索将深度学习与对极几何和Perspective n Point PnP方法相集成的正确方法。具体来说，我们训练了两个卷积神经网络CNN来估计单视深度和两视光流作为中间输出。通过深入的预测，我们设计了一种简单但健壮的逐帧VO算法DF VO，其性能优于纯基于深度学习和基于几何的方法。更重要的是，我们的系统不会受到比例尺一致的单一视图深度CNN辅助的比例尺漂移问题的困扰。在KITTI数据集上进行的广泛实验显示了我们系统的鲁棒性，详细的消融研究显示了我们系统中不同因素的影响。

Adversarial Learning of General Transformations for Data Augmentation
Authors Saypraseuth Mounsaveng, David Vazquez, Ismail Ben Ayed, Marco Pedersoli
数据增强DA是防止大型卷积神经网络过度拟合的

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

相关文章