锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

CVPR22 |CMT:CNN和Transformer的高效结合(开源)

时间:2022-08-14 09:30:01 abs轮速传感器各自的优缺点

作者丨王云鹤@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/534567826

极市平台编辑

导读

到底CNN和Transformer哪个更好?当然,联手最好。华为诺亚实验室的研究人员提出了一种新的视觉网络架构CMT,简单结合传统卷积和Transformer,网络性能优于谷歌提出的网络性能EfficientNet,ViT和MSRA的Swin Transformer。

摘要

近年来,Transformer它在视觉领域吸引了越来越多的关注,然后自然产生了一个问题:最终CNN和Transformer哪个更好?强强联手当然是最好的。华为诺亚实验室的研究人员提出了一种新的视觉网络架构CMT,简单结合传统卷积和Transformer,网络性能优于谷歌提出的网络性能EfficientNet,ViT和MSRA的Swin Transformer。论文多层次Transformer传统的卷积是在网络层与层之间插入的,旨在通过卷积 图像局部和全局特征的全局注意力分层提取。简单有效的结合证明在目前的视觉领域,使用传统卷积是提升模型性能的最快方法。在ImageNet图像识别任务,CMT-Small在计算量相似的情况下Top-1正确率达83.5%,远高于Swin的81.3%和EfficientNet的82.9%。

01b230c740ff29e389cb7dc1c1ba8131.jpeg

论文链接:https://arxiv.org/abs/2107.06263

PyTorch代码:https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/cmt_pytorch

MindSpore代码:https://gitee.com/mindspore/models/tree/master/research/cv/CMT

引言

Transformer受此启发,自然语言处理网络的诞生促进了进步和发展,transformer近年来,它开始出现在计算机视觉领域。谷歌学者提出的Vision Transformer(ViT)模型是视觉任务中使用的经典纯模型transformer技术方案。它将输入图片分成几个图像块(patch),每个patch使用一个向量(vector/tensor)来表示,用transformer来处理图像patch可直接用于图像识别、检测等。例如DETR使用基于transformer的图1 ResNet-50/ViT/CMT架构对比

编码解码器进行目标检测,IPT利用单个transformer模型处理多个底层视觉任务。与以前的传统相比CNN模型(如ResNet)相比,transformer依靠其整体注意机制可以捕获patch长距离依赖关系在检测、分割等视觉任务中表现出色。

但相比于NLP由于其独特的2,视觉任务的输入D输入表征的变化更加复杂,patch局部空间信息也很重要。所以现有的视觉transformer输入图像的缺点也很明显。patch图像块过程中,图像块的内部结构信息将被破坏,长期注意机制很容易忽略图像的局部独特性,导致现有的transformer的效果不如SOTA传统卷积网络。

本文的目标是将CNN结合优点Transformer解决上述问题。我们提出了一个新的架构CMT,基于层次结构(stage-wise)的transformer,引入卷积操作提取细粒度特征,设计独特的模块层次提取局部和全局特征。既提高了性能,又节省了计算费用。在ImageNet下游任务中的基准测试和实验表明了该方法在精度和计算复杂性方面的优势。例如,CMT-Small仅用4.0B FLOPs就达到了83.5%的ImageNet top-1正确率大于计算量Swin Transformer高出了2.2%。

方法

图像预处理

大多数以transformer为基础的模型会利用一个大卷积(如ViT中的16x16卷积核)将输入图像直接切割成不重叠patch,这种做法直接失去了patch中的2D空间特征以及许多细节和边缘信息。因此CMT采用传统的Conv stem结构,多个3x三卷堆叠结构达到采样和细节提取的目的。为提取多尺度特性(适合当前主流检测器),CMT采用主体结构stage-wise的Transformer,每个stage前均使用2x2 stride采样2卷积,增加通道数。

CNN和Transformer结合的CMT模块

  • LPU(local perception unit)局部感知单元:

旋转和平移是CNN然而,常用的促销方法是ViT绝对位置代码通常用于每个位置patch它们对应于唯一的位置编码,因此不能给网络带来平移不变性。我们的局部感知单元使用3x3深度分离卷积,引入卷积平移不变形Transformer使用残差连接稳定的网络训练:

  • LMHSA(lightweight multi-head self-attention)轻量级多头注意力:

给定一个大小Rn×d原始的多头注意力机制首先会产生相应的输入QueryKeyValue(与原输入大小一致),然后通过点QueryKey产生一个大小为的点积Rn×n权重矩阵:

这个过程往往会消耗大量的计算资源(显存),因为输入特性大,给网络的培训和部署带来困难。我们用两个kxk深度分离卷积分别对KeyValue降采样处理生成,获得两个相对较小的特征K’V’:

在Self-Attention在模块中引入深度可分离卷积采样特征图,是节省计算量和显存的有效方法。

  • IRFFN(inverted residual feed-forward network)反向残差前馈网络:

与传统的前馈网络相比,这部分的前馈网络transformer的FFN,深度可分离卷积层加入两层全连接层,设计相似MobileNetV2中的inverted residual block:

CMT整体架构

CMT网络主要由CMT(Conv) Stem,四个下采样层,四个Stage,由池化层和全连接分类器组成,类器组成Stage由若干个CMT Block堆叠成分。具体结构如表1所示,其中Hi和ki 分别是轻量级多头注意力模块的头部数量和下采样率,Ri是反向残差前馈网络中间层通道的扩展倍数。

CMT系列网络族

类似EfficientNet我们针对放缩模型的规则CMT用亿点点grid search搜索最佳放缩系数,α=1.2, β=1.3, and γ=1.放缩公式如下:

我们以CMT-Small在此基础上,利用上述放缩公式础CMT-Ti,,CMT-XS和CMT-B。对应这些模型ImageNet输入大小分别为160x160,192x192,224x224(CMT-S)和256x256。

实验

ImageNet实验

我们在ImageNet 训练和验证2012年数据集CMT模型。从表2可以看出,不论是新兴的transformer模型,或传统CNN模型,CMT性能优势明显。在只需要4.0B在计算量下,CMT-S达到83.5%的top-精度,比基线模型Swin-T高2.2%,这表明是tranformer传统卷积的引入有利于模型更好地提取和保留局部结构信息。

在ImageNet数据集和SOTA模型对比

迁移学习实验

CMT下游任务的表现

为了证明CMT我们将具有很强的泛化能力ImageNet上训练的CMT-S、CMT-B模型迁移到其他数据集。更具体地说,评估5个图像分类数据集CMT模型,包括CIFAR-10、CIFAR-100、Stanford Cars、Oxford 102 Flowers和Oxford IIIT Pets。所有模型微调的图像分辨率为224x224。表3比较了CMT与EfficientNet、DeiT、TNT等网络的迁移学习结果。

目标检测和实例分割实验

表4和表5分别显示CMT-S不同框架(如RetinaNet和Mask R-CNN)不同检测任务的结果。CMT-S与其他网络相比,性能有了很大的提高。

CMT在COCO数据集目标检测任务的性能
CMT在COCO数据集实例分割任务的性能

总结

提出了一篇论文CNN和ransformer结合的的通用视觉模型:CMT。在现在这个CNN、Transformer、MLP多种视觉基础框架如雨后春笋般被提出的年代,每当一种新型架构/模块被提出,研究员们不得不在各自的任务/领域上一个个试验这些结构是否能带来效果上的提升。本文简洁有效的证明:在视觉领域中传统卷积和Transformer结合有着1+1>2的效果。我们以目前火热的Transformer为基础,在经典的ViT结构上引入由3x3卷积组成的Conv Stem,以及由Depth-wise 卷积和自注意力机制组合而成的CMT模块,在几乎不增加FLOPs的情况下,大幅度提升视觉网络的现有精度。在ImageNet和下游任务上的大量实验都证明了所提出的CMT架构的优越性。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~ 

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章