【AI视野·今日CV 计算机视觉论文速览 第159期】Tue, 24 Sep 2019
时间:2023-05-31 12:37:01
AI视野·今日CS.CV 计算机视觉论文速度
Tue,24 Sep 2019
Totally 67 papers
?上期速览?更精彩请移动主页
Interesting:
?基于层次点和边缘交互的网络模型用于点云分割,通过点与边缘的上下文关系探索点云分割问题。它包括编码器解码器架构和不同层次集成点的边缘分支的特征。分层图网络从粗糙层开始,并随着点的解码过程不断细化。在最终层的边缘标记连接点。同时,在不同层次上,边缘特征也反馈给点特征,以提高局域预测效果。点与边缘分支之间的互动协作提高了预测效果。(from 香港中文 腾讯优图)
下图显示了点分支和边分支在多层次网络中相互传递特征的共同提升:
网络的具体分支如下图所示:
上图中的边模块和点模块:
随着点特征的解码,初始图纸不断细化:
语义分割的一些实现结果:
dataset:S3DIS ScanNet
?ShufflePointNet为了克服大量的点云分析,基于组卷机和更宽的编码层MLP对于堆叠处理点云的巨大计算,研究人员提出了一个更宽的网络模型,可以利用平行的组卷积和通道混合操作来有效地处理细粒度的局域特征。与第一个MLP与该方法相比,该网络通过分组特征,网络更宽,每组特征处理的深度非常浅,降低了复杂性,提高了可编码信息。同时,通过通道混合建立了组与组之间的通信。这种多分支结构可以有效地提取宽网络的特征。(from Cranfield University)
结构细节:
一些点云分割的结果:
ref:
Fast Hierarchical Neural Network for Feature Learning on Point Cloud
GAPNet,code
Dynamic Graph CNN for Learning on Point Clouds
FoldingNet
?Shadow Transfer,它提出了一种方法来解决一天中不同光线对场景视觉任务的影响,并重新照亮场景以获得鲁棒的图像。(from 密西根州立)
?****FlatteNet,提出了一种不需要解码的方法,直接将高维输出输入到相应的输出分辨率中。移除解码器后,参数更少、更快。(from 四川大学)
图中特征的操作包括蓝色深度可分离组卷机和粉色像素的混合操作,最终通过后处理得到分割结果。
深度可分离组卷积和pixels shuffle过程:
?****HUSC人体和场景合成、三维人体和场景合成的新方法,包括人体合成、基于几何的人体插入和无缝连接过程,以及屏蔽和光变化。(from Lund University)
人体合成结果:
场景合成结果:
?LoGANv基于条件风格的生成对抗logo
?基于非局域高斯混合模型的图像补全与目标去除
?学习长指纹表达,数据集DeepPrint 和COST A
?风格迁移法提高心血管图像分割效果
?***SkyNet高效的硬件目标检测和跟踪嵌入式系统,(from IBM illinoin)
Daily Computer Vision Papers
Hydrocephalus verification on brain magnetic resonance images with deep convolutional neural networks and "transfer learning" technique Authors Alexey Demyanchuk, Ekaterina Pushkina, Nikolay Russkikh, Dmitry Shtokalo, Sergey Mishinov 脑积水既可以是独立疾病,也可以是多种病理的伴随症状,因此,代表了当今临床实践中的紧迫问题。深度学习是一项不断发展的技术,是更广泛的机器学习领域的一部分。目前在放射学领域积极研究深度学习。这项研究的目的是利用MRI图像评估深度学习在脑积水诊断中的适用性。我们回顾性地收集,注释和预处理了200例有无脑积水的放射学迹象的患者的脑部MRI数据。我们将最先进的深度卷积神经网络与转移学习方法结合使用来训练脑积水分类器模型。使用深度卷积神经网络,我们获得了高质量的机器学习模型。脑积水体征识别的准确性,敏感性和特异性分别为97、98和96。在这项研究中,我们证明了使用大脑MRI图像的深层神经网络识别脑积水综合征的能力。应用转移学习技术,尽管在相当有限的数据上进行了训练,但仍实现了高质量的分类。 |
Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation Authors Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi Wing Fu, Jiaya Jia 我们通过探索边缘之间每个点及其上下文邻居之间的语义关系来实现3D语义场景标记。除了用于预测点标签的编码器解码器分支之外,我们还构建了一个边缘分支以分层集成点特征并生成边缘特征。为了在边缘分支中合并点特征,我们建立了一个分层的图框架,其中图是从粗糙层初始化的,并沿着点解码过程逐渐丰富。对于最终图中的每个边,我们预测一个标签以指示两个连接点的语义一致性,以增强点预测。在不同的层,边缘特征也被馈送到相应的点模块中,以集成上下文信息,以增强本地区域中的消息传递。这两个分支相互交互,并在细分中合作。在几个3D语义标签数据集上的体面实验结果证明了我们工作的有效性。 |
Pelvis Surface Estimation From Partial CT for Computer-Aided Pelvic Osteotomies Authors Robert Grupp, Yoshito Otake, Ryan Murphy, Javad Parvizi, Mehran Armand, Russell Taylor 当进行盆腔截骨术以进行术中导航时,计算机辅助手术系统通常使用术前CT扫描。这些系统具有改善盆腔截骨术的安全性和准确性的潜力,但是,将患者暴露于放射线是一个重大缺陷。为了减少辐射暴露,我们提出了一种新的平滑外推方法,该方法利用局部骨盆CT和完整骨盆的统计形状模型SSM来估算患者的完整骨盆。创建了正常,完整,女性骨盆解剖结构的SSM,并从42位受试者中进行了评估。进行了留一法测试以表征SSM的固有泛化能力。进行了额外的留一法测试,以测量平滑外推法和现有的剪切和粘贴外推法的性能。通过保持患者髋臼的轴向切片完整并在总骨盆范围的0到15之间改变保留的上retained的数量来模拟未知的解剖结构。与RMS剪切和粘贴方法相比,平滑技术在RMS和最大表面误差方面平均提高了1.31 mm和3.61 mm。在保留5个the的情况下,平滑估算的表面的RMS表面误差为2.21 mm,当不保留任何rest时,改善了1.25 mm。这种解剖估计方法使患者和外科医生受益于CAS系统的使用,并同时减少了患者的辐射暴露。 |
Patch-Based Image Similarity for Intraoperative 2D/3D Pelvis Registration During Periacetabular Osteotomy Authors Robert Grupp, Mehran Armand, Russell Taylor 髋臼周围截骨术是治疗发展性髋关节发育不良的具有挑战性的外科手术,通过重新定位患者的髋臼提供更大的股骨头覆盖范围。由于在手术流程中经常使用荧光透视成像,因此切骨术和重新定位的髋臼碎片的计算机辅助X射线导航应该是可行的。我们使用基于强度的2D 3D配准估计相对于透视图像的骨盆姿势,恢复多个视图的相对姿势,并对可用于导航的地标进行三角剖分。现有的相似性指标无法始终如一地说明术前完整骨盆与骨折骨盆术中实际情况之间的内在失配。为了减轻这种不匹配的影响,我们不断估计每个像素与解决配准的相关性,并将这些值用作基于补丁的相似性度量中的权重。与现有的基于补丁的方法相比,将计算限制为随机选择的补丁子集可导致更快的运行时间。对随机碎片形状,重定位和荧光透视图进行了仿真研究,与未修补和图像强度方差加权的平均误差分别为3 mm和2.8 mm相比,所提出的方法在所有界标上均实现了1.7 mm的平均三角剖分误差。分别修补相似性指标。 |
Go Wider: An Efficient Neural Network for Point Cloud Analysis via Group Convolutions Authors Can Chen, Luca Zanotti Fragonara, Antonios Tsourdos 为了获得更好的点云分析性能,许多研究人员在不规则点云上使用了堆叠的多层Perceptron MLP卷积应用更深的神经网络。但是,在大量点上应用密集的MLP卷积,例如自动驾驶应用导致内存和计算效率低下。为了实现高性能但降低复杂性,我们提出了一种称为ShufflePointNet的深层神经网络,以利用细粒度的局部特征并使用组卷积和通道随机操作来减少并行冗余。与直接将MLP直接应用于点云的高维特征的常规操作不同,我们的模型通过预先将特征分成几组而变得更宽,并且具有较小深度的每个组仅负责各自的MLP操作,这可以降低复杂度并允许编码更有用的信息。同时,我们通过改组特征通道中的组来连接组之间的通信,以捕获细粒度的特征。我们认为,用于更广泛的神经网络的多分支方法也有利于点云的特征提取。我们针对ModelNet40数据集上的形状分类任务和大规模数据集ShapeNet部分,S3DIS和KITTI上的语义分割任务进行了广泛的实验。我们将进一步进行消融研究,并将我们的模型与其他先进算法的复杂性和准确性进行比较。 |
Model-Based and Data-Driven Strategies in Medical Image Computing Authors Daniel Rueckert, Julia A. Schnabel 在过去的几十年中,基于模型的图像重建,分析和解释方法取得了重大进展。这些方法很多都基于数学,物理或生物学模型。这些方法的挑战是对基础过程的建模,例如具有适当水平的细节和真实感的图像采集物理学或疾病的病理生理。随着大量成像数据和机器学习(尤其是深度学习技术)的可用性,数据驱动方法已越来越广泛地用于重建,分析和解释的不同任务。这些方法直接从加标签或未加标签的图像数据中学习统计模型,并已显示出从医学成像中提取临床有用信息的强大功能。尽管这些数据驱动的方法通常优于传统的基于模型的方法,但它们的临床部署通常在鲁棒性,泛化能力和可解释性方面提出挑战。在本文中,我们讨论了哪些发展推动了从基于模型的方法向数据驱动的策略的转变,以及哪些潜在的问题与向纯数据驱动的方法(尤其是深度学习)的迁移相关。我们还将讨论数据驱动方法的一些开放挑战,例如泛化为新的看不见的数据,例如转移学习,对抗攻击的鲁棒性和可解释性。最后,我们以讨论这些方法如何导致以端到端的方式优化的更紧密耦合的成像管道的开发作为结束。 |
Shadow Transfer: Single Image Relighting For Urban Road Scenes Authors Alexandra Carlson, Ram Vasudevan, Matthew Johnson Roberson 图像中的照明效果(特别是阴影和阴影)已显示出会降低深层神经网络在城市驾驶场景中大量基于视觉的检测,识别和分割任务上的性能。造成此性能差距的一个关键因素是,实际的,带有标签的数据集中缺乏时间多样性。在将以前看不见的视觉效果转移到数据集中,特别是在昼夜转换中,图像到图像转换领域取得了令人瞩目的进步。但是,要限制在训练过程中哪些视觉效果(更不用说照明效果)从一个数据集转移到另一个数据集并不容易。为了解决这个问题,我们提出了一种称为“阴影转移”的深度学习框架,该框架可以通过将逼真的阴影,阴影和其他照明效果转移到单个图像上来重新照亮复杂的室外场景。所提出的框架的新颖之处在于,它既可以自我监督,又可以在自动车辆数据集中容易获得的传感器和标签信息上运行。我们在合成数据集和真实数据集上均显示了该方法的有效性,并提供了实验,证明了该方法所产生的图像的视觉质量要高于现有技术到图像转换方法的水平。 |
RAUNet: Residual Attention U-Net for Semantic Segmentation of Cataract Surgical Instruments Authors Zhen Liang Ni, Gui Bin Bian, Xiao Hu Zhou, Zeng Guang Hou, Xiao Liang Xie, Chen Wang, Yan Jie Zhou, Rui Qi Li, Zhen Li 手术器械的语义分割在机器人辅助手术中起着至关重要的作用。然而,由于镜面反射和类别不平衡问题,白内障手术器械的准确分割仍然是一个挑战。在本文中,提出了一种新颖的网络来分割白内障手术器械。它引入了注意力机制来改善特征表示。设计了一个新的注意力模块来学习区分功能。它捕获全局上下文并编码语义相关性以强调关键的语义特征,从而增强了特征表示。该注意模块的参数很少,有助于节省内存。因此,它可以灵活地插入其他网络。此外,引入了混合损失来训练我们的网络来解决类不平衡问题,该问题融合了交叉熵和Dice损失的对数。构建了一个名为Cata7的新数据集来评估我们的网络。据我们所知,这是第一个用于语义分割的白内障手术器械数据集。基于此数据集,RAUNet的平均性能为97.71 Dice,平均IOU为95.62。 |
Object Segmentation using Pixel-wise Adversarial Loss Authors Ricard Durall, Franz Josef Pfreundt, Ullrich K the, Janis Keuper 最近基于深度学习的方法在对象分割任务上显示出了惊人的成功。但是,仍然存在进一步改进的空间。受生成对抗网络的启发,我们提出了一种通用的端到端对抗方法,该方法可以与广泛的现有语义分割网络结合以提高其分割性能。我们方法的关键要素是将高分辨率的像素明智损失替换为常用的二进制对抗损失。此外,我们采用随机加权平均方式训练我们的发电机,这进一步增强了预测的输出标签图,从而带来了最新的技术成果。我们显示,与基准模型相比,像素明智的对抗训练和权重平均的这种组合导致了细分性能的显着且一致的提升。 |
How to improve CNN-based 6-DoF camera pose estimation Authors Soroush Seifi, Tinne Tuytelaars 卷积神经网络CNN和转移学习最近已用于6自由度6 DoF相机姿态估计。尽管它们不能达到与基于视觉SLAM的方法相同的精度,并且受限于特定的环境,但它们的鲁棒性出色,甚至可以应用于单个图像。在本文中,我们研究PoseNet 1并研究基于数据集特征的修改以提高姿态估计的准确性。特别是,我们强调视野对图像分辨率的重要性,我们提出了一种数据增强方案来减少过度拟合,我们研究了长期短期记忆LSTM细胞的作用。最后,我们结合了这些修改,并改善了基于单眼CNN的相机姿态回归的PoseNet性能。 |
Human Synthesis and Scene Compositing Authors Mihai Zanfir, Elisabeta Oneata, Alin Ionut Popa, Andrei Zanfir, Cristian Sminchisescu 能够控制外观,姿势和形状参数的能力的人类产生高质量和几何上合理的合成图像,对于从照片编辑,时尚虚拟试戴到特殊效果和图像压缩等各种任务,已变得越来越重要。在本文中,我们提出了HUSC,这是一种人类合成和场景合成框架,用于在新颖的姿势和场景中逼真地合成具有不同外观的人类。我们公式的核心是对人和场景的3D推理,以便通过正确建模透视效果和遮挡,考虑场景语义并适当处理相对比例来生成逼真的拼贴。从概念上讲,我们的框架由三个部分组成:1是基于参数表示的具有可控姿势和外观的可控人体图像合成模型; 2是利用3d场景的几何形状和语义的人员插入过程; 3是外观合成过程以创建一个场景颜色与生成的人类图像之间的无缝融合,并避免视觉伪影。定性和定量结果都支持我们框架的性能,尤其是DeepFashion数据集的最新综合得分。 |
Predicting Landscapes from Environmental Conditions Using Generative Networks Authors Christian Requena Mesa, Markus Reichstein, Miguel Mahecha, Basil Kraft, Joachim Denzler 景观是有意义的生态单元,在很大程度上取决于环境条件。自从地球科学开始以来,景观与环境之间的这种依赖性就得到了关注,并被注入描述气候,地质,植被和地貌之间相互依赖性的概念模型中。在这里,我们问是否可以根据相关环境条件从空间上对景观进行统计预测。为此,我们采用了深度学习生成模型,以建立环境条件与Sentinel 2卫星的景观之间的关系。我们训练了条件生成对抗网络,以根据一组气候,地形和人为预测因素生成多光谱图像。生成的景观图像与真实图像具有许多特征。基于景观斑块度量标准的结果(表明景观组成和结构)表明,所提出的生成模型创建的景观比基准模型更接近目标,而总反射率和植被覆盖度得到了更好的预测。我们证明,出于许多目的,所生成的景观在直接应用于全球变化研究时表现得真实。我们设想将机器学习作为一种工具来预测气候变化对景观空间特征的影响,同时评估其局限性和突破点。 |
Large Scale Joint Semantic Re-Localisation and Scene Understanding via Globally Unique Instance Coordinate Regression Authors Ignas Budvytis, Marvin Teichmann, Tomas Vojir, Roberto Cipolla 在这项工作中,我们提出了一种新颖的方法来进行联合语义本地化和场景理解。我们对工作的兴趣来自对定位算法的需求,这些算法不仅可以预测6个自由度的摄像机姿态,还可以同时识别周围的物体并估算3D几何形状。这种功能对于与环境自动驾驶,增强现实和机器人技术交互的计算机视觉引导系统至关重要。特别是,我们提出了一个两步过程。在第一步中,我们训练卷积神经网络以共同预测每个像素的全局唯一实例标签和静态对象的每个实例的相应局部坐标,例如建筑 。在第二步中,我们通过组合对象中心坐标和局部坐标来获取场景坐标,并使用它们执行6 DoF相机姿态估计。我们对真实世界的CamVid 360和人工SceneCity自动驾驶数据集进行评估。我们获得了比现有技术6 DoF姿态估计算法更小的平均距离和角度误差,该技术基于直接姿态回归和所有数据集上场景坐标的姿态估计而构成。我们的贡献包括将场景坐标回归作为两个单独的对象实例识别和局部坐标回归任务来进行新颖的表述,并证明了我们提出的解决方案可以预测静态对象的精确3D几何形状并估计ii地图上相机的6 DoF姿态,其放大倍数更大。比以前通过场景坐标回归方法以及在iii轻量级,近似3D地图(由3D图元构建的)(例如,构建对齐的长方体)上尝试的数量级大几个数量级。 |
Scheduled Differentiable Architecture Search for Visual Recognition Authors Zhaofan Qiu, Ting Yao, Yiheng Zhang, Yongdong Zhang, Tao Mei 卷积神经网络CNN被认为是解决视觉识别问题的能力强大的一类模型。但是,开发通用而强大的网络体系结构并非易事,这需要人类专家的大量努力。在本文中,我们介绍了一种在可微体系结构搜索DAS模具上自动探索体系结构的新思路,该体系具有通过梯度下降的有效搜索。具体来说,我们提出了针对图像和视频识别的计划可区分架构搜索SDAS,可将训练期间的操作选择与计划很好地集成在一起。从技术上讲,体系结构或单元表示为有向图。我们的SDAS以渐进和计划的方式逐渐将操作固定在图形的边缘,而不是一旦在现有DAS中完成训练后就一步一步确定所有边缘的操作,这可能会使体系结构变得脆弱。此外,我们通过设计一些独特的操作来编码时空动态,并展示了影响SDAS架构搜索的影响,从而扩大了SDAS的搜索空间,尤其是用于视频识别的搜索空间。在CIFAR10,Kinetics10,UCF101和HMDB51数据集上进行了架构学习的广泛实验,与DAS方法相比,其结果更为出色。更为明显的是,我们的SDAS的搜索速度比DAS快2倍左右。当将CIFAR10和Kinetics10上的学习单元分别转移到大规模ImageNet和Kinetics400数据集时,构建的网络也优于几种最先进的手工结构。 |
Deep Convolutions for In-Depth Automated Rock Typing Authors E.E. Baraboshkin, L.S. Ismailova, D.M. Orlov, E.A. Zhukovskaya, G.A. Kalmykov, O.V. Khotylev, E.Yu. Baraboshkin, D.A. Koroteev 地质学家日常工作中最耗时的任务之一是对岩石进行描述,尤其是在进行非常精确的描述时。在这里,我们提出了一种有助于最大程度提高地质学家效率并减少描述岩石时间的方法。我们描述了基于颜色分布分析和特征提取的方法的应用,以及基于卷积神经网络的新方法。我们使用了几种著名的神经网络架构AlexNet,VGG,GoogLeNet,ResNet并对其性能进行了比较。在使用GoogLeNet架构的验证集上,算法的精度高达95。所提出的算法中最好的算法可以在一分钟内以自动模式描述50 m的全尺寸磁芯。 |
WiCV 2019: The Sixth Women In Computer Vision Workshop Authors Irene Amerini, Elena Balashova, Sayna Ebrahimi, Kathryn Leonard, Arsha Nagrani, Amaia Salvador 在本文中,我们将与CVPR 2019联合举办``2019年计算机视觉中的女性研讨会''。该活动旨在提高计算机视觉领域中女性研究人员的知名度和包容性。在过去的几年中,计算机视觉和机器学习取得了令人难以置信的进步,但是在学术界和行业中,女性研究人员的数量仍然很少。 WiCV之所以组织起来,主要是出于以下原因,以提高女性研究人员的知名度,加强他们之间的合作并为该领域的女性初级研究人员提供指导。在本文中,我们将介绍过去几年的趋势报告,以及有关当前研讨会的演讲者,出席者和赞助情况的统计摘要。 |
Learning Coupled Spatial-temporal Attention for Skeleton-based Action Recognition Authors Jiayun Wang 在本文中,我们提出了一种基于骨架的动作识别的耦合时空注意CSTA模型,旨在同时找出时空域中最具区分性的关节和帧。常规方法通常认为骨骼序列中的所有关节或框架都同样重要,对于歧义和多余的信息而言,这些关节或框架不那么重要。为了解决这个问题,我们首先通过两个子网分别为不同的关节和框架学习两组权重,这使模型能够关注相对信息丰富的部分。然后,我们基于关节和框架的权重计算空间乘积,以求出叉积。此外,我们的CSTA机制可轻松插入现有的分层CNN模型CSTA CNN中以实现其功能。在最近收集的UESTC数据集和当前最大的NTU数据集上的大量实验结果表明,我们提出的基于骨骼的动作识别方法的有效性。 |
Retrieval-based Localization Based on Domain-invariant Feature Learning under Changing Environments Authors Hanjiang Hu, Hesheng Wang, Zhe Liu, Chenguang Yang, Weidong Chen, Le Xie 视觉本地化是移动机器人和自动驾驶中的关键问题。一种解决方案是从数据库中检索具有已知姿势的图像,以对查询图像进行本地化。但是,在条件急剧变化的环境中,例如光照变化,季节,遮挡,动态物体,基于检索的本地化受到严重阻碍,并成为一个具有挑战性的问题。本文提出了一种基于多域图像翻译网络体系结构ComboGAN的领域不变特征学习方法。通过在另一个域的原始图像和翻译图像的编码特征之间� 相关文章
|