YOLOv4一作提出Transformer新架构:DPT!替代卷积网络做密集预测
时间:2022-12-03 04:30:00
本文转载自:机器之心
研究人员提出了这项研究 DPT 架构。这种 ViT 该架构取代了卷积网络作为密集预测任务的主要网络,获得了更好的细粒度和更一致的预测。
图像语义分割的目标是标记图像中每个像素的类别。这个任务通常被称为密集预测,因为它是预测图像中的每个像素。
目前,几乎所有的密集预测架构都是基于卷积网络的,通常遵循一种模式:将网络分为编码器和解码器。编码器通常基于图像分类网络,也称为主干。它在一个大型语料库中 (如 ImageNet) 预训练;解码器聚合了编码器的特性,并将其转化为最终的密集预测。过去的密集预测架构研究通常关注解码器及其聚合策略,但事实上,主要架构的选择对整个模型至关重要,因为在解码器中丢失的信息无法恢复。
在英特尔的一项研究中,研究者提出了 DPT 架构(dense prediction transformer)。DPT 它仍然是基于编码器的新架构,用于密集预测 - 解码器的设计,但其中使用 transformer 作为编码器的基本计算构建块。
具体来说,研究人员使用之前的视觉 transformer(ViT)作为主体结构,将由 ViT 提供的词袋表征重组为各种分辨率下的类图像特征表征,这些特征表征逐渐用卷积解码器组合到最终的密集预测中。
Transformer 主干网络以不变、相对较高的分辨率处理表征,在每个阶段都有一个全球的接触感。这些特允许与全卷积网络相比 DPT 提供更好的细粒度和更一致的预测。
实验表明,这种架构对于密集预测任务有很大的改进,特别是在有大量训练数据可用的情况下。研究人员观察到,与目前的单目深度估计相比, SOTA 全卷积网络,新架构达到高达 28% 的提升。当应用于语义分割时,DPT 在 ADE20K 实现了新的 SOTA(49.02% mIoU)。此外,研究人员还在较小的数据集上展示了该架构的微调结果,如 NYUv2、 KITTI 和 Pascal Context 都实现了新的 SOTA。
Vision Transformers for Dense Prediction
论文地址:https://arxiv.org/abs/2103.13413
代码地址:https://github.com/intel-isl/dpt
值得一提的是,感兴趣的研究人员现在可以到达 Huggingface 平台体验 Demo:
Demo 地址:https://huggingface.co/spaces/akhaliq/DPT-Large
架构
让我们来具体看看这种密集型 ViT 在密集预测方面取得成功的编码器的新架构 - 解码器结构。其中,视觉 transformer 作为主干,编码器产生的表征可以有效地转化为密集预测,如下图所示 1(左)所示。
Transformer 编码器
在高层次上,视觉变换器 (ViT) 对图像的词袋(bag-of-words)操作表征。图像单独嵌入特征空间 patch 或者从图像中提取的深度特征,扮演「word」的角色。本研究的其余部分将嵌入「word」作为 token。Transformer 使用多头自注(MHSA)的序列块对 token 集进行转换,每个集进行转换 token 相互关联以转换表征。
对于应用程序来说,最重要的是 transformer 保持所有计算 token 的数量。由于 token 与图像 patch 这意味着一一对应 ViT 所有编码器 transformer 空间分辨率可以保持初始嵌入阶段。此外,MHSA 本质上是一种全局操作,因为每一个都是全局操作。 token 可以参与和影响其他一切 token。因此,transformer 初始嵌入后的每个阶段都可以有一个全的感觉,与卷积网形成鲜明对比。
卷积解码器
该架构的解码器将 token 组合成各种分辨率的类图像特征。这些特征逐渐融入到最终的密集预测中。本研究提出了一个简单的三阶段重组(Reassemble)操作,以从 transformer 输出编码器的任何层 token 中恢复图像表征:
其中, s 与输入图像的输出尺寸比相比,代表恢复获得的表征代表输出特征维度。
图像尺寸的变化
类似于全卷积网络,DPT 图像的大小可以改变。只要图像尺寸可以接受 p 可以应用嵌入过程来生成不同数量的图像 token N_p。作为一种 set-to-set 架构,transformer 编码器可以轻松处理不同数量的编码器 token。然而,位置嵌入取决于图像的大小,因为它在输入图像时 patch 编码位置。该研究遵循 Alexey Dosovitskiy 等人在论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》将位置嵌入线性并插入适当尺寸的方法。值得注意的是,这可以立即完成每个图像。嵌入过程和 transformer 只需输入图像和卷积解码器的步幅(32 对齐、重组和集成模块可以轻松处理不同数量 token。
实验
在实验中,研究者将 DPT 应用于两个密集的预测任务: 单目深度估计和语义分割。主要部分的结果首先用默认配置显示,最后显示不同 DPT 消融实验结果的配置。
表 1 展示了 Zero-shot 这些数据集没有参与跨数据集迁移学习的训练过程。
图 2 视觉效果对比显示了几种方法。
另外,研究者在 KITTI 和 NYUv2 微调数据集 DPT-Hybrid,进一步比较 DPT 与现有工作性能相比。 2 和表 3 所示,DPT 所有指标上的架构都是平的或改进的。 DPT 也可有效应用于较小的数据集。
语义分割
随后,研究人员选择语义分割作为第二项任务,因为它是离散标记任务的代表,也是密集预测架构的重要任务。研究人员使用与上述实验相同的主要网络和解码器结构 output head,预测半分辨率和预测 logits 采样上,用双线插值补充分辨率。编码器再次由 ImageNet 预训练权重初始化,解码器随机初始化。
研究者在 ADE20K 语义分割数据集上对 DPT 进行了 240 个 epoch 的训练。表 4 显示了验证集的结果,DPT-Hybrid 性能优于所有现有的全卷积结构。
该研究还在 Pascal Context 数据集上对 DPT-Hybrid 进行了 50 个 epoch 其他超参数保持不变。 5 显示了验证集的结果:DPT 即使在较小的数据集中也能提供出色的性能。
消融实验
由于 Transformer 主网络保持稳定的特征分辨率,因此不清楚主网络特征中值得使用的部分。研究人员进行了消融实验来探索这一点。
表 6(顶部)评估了几个可能的选择。发现有利于从低层和高层的深层中挖掘特征。研究人员使用最佳设置进行进一步的实验。
研究者用表 6(底部) Hybrid 类似的实验包括结构 R0 和 R1 指的是使用 ResNet50 采样特征嵌入网络的第一阶段和第二阶段。
表 7 展示重组块(Reassemble block)处理的第一阶段 readout token 时的各种设置及其相应性能:
如表 8 所示,ViT-Large 性能优于所有其他主要网络,但大小几乎是 ViT-Base 和 ViT-Hybrid 的 3 倍。当参数相似时,ViT-Hybrid 的性能优于 ViT-Base,而且性能相当于大型主干网络。
虽然完全卷积结构在其最深层有很大的有效感受野,但近输入的层却是局部的,感受野较小。如下图 4 所示,可以观察到,随着推理分辨率的提高,DPT 变体的性能确实会更缓慢地降低。
在推理速度方面,表 9 展示了不同网络结构的推理时间:
更多细节详见论文原文。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~