【读点论文】Transformer in Transformer 细化图片结构，递归使用transformer。让图片去拟合自然语言处理的...

时间：2023-11-21 18:37:02 yl1雨量传感器

Transformer in Transformer

Abstract

Transformer通过注意机制，是一种新的神经架构将输入数据编码为强大的特征。基本上，视觉transformer先将输入图像分成几个局部小块，然后计算两种表示及其关系。
由于自然图像具有高度的复杂性和丰富的细节和颜色信息，块划分的粒度不同，以挖掘不同尺度和位置的物体特征。
本文指出了这些局部部位补丁内部的注意力是构建高性能视觉transformer也是必不可少的，并探索了一种新的结构，即transformer中的transformer(TNT)。
具体来说，本文将是局部小块(如16)×16)视为视觉句子提出将其进一步划分为更小的小块(如4×4)作为视觉单词。每个单词的注意力将与给定视觉句子中的其他单词一起计算，计算成本可以忽略不计。
单词和句子的特征将被聚合，以增强表达能力。几个基准的实验证明了提出的TNT例如，本文的模型是系统结构的有效性ImageNet上获得了81.5%的top-1精度，比计算成本相似的最先进的视觉转换器高1左右.7%。
PyTorch代码可在https://github.com/huawei-noah/CV-Backbones,获得，
MindSpore代码可在https://gitee.com/mindspore/models/tree/master/research/cv/TNT获得。
提出了一个新颖的Transformer-iN-Transformer（TNT）模型，用于对 patch建模级和像素级表示。
- 在每个TNT块中，外部transformer块用于处理patch内部嵌入transformer块从像素嵌入中提取局部特征。通过线性变换层投影像素级特征patch嵌入空间，然后添加到patch中。通过堆叠TNT本文建立了用于图像识别的块TNT模型。
华为诺亚实验室研究人员提出了一种新的视觉 Transformer 网络架构 Transformer in Transformer，其表现优于谷歌 ViT 和 Facebook 的 DeiT。TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。
- 谷歌 ViT（Vision Transformer）模型是视觉任务的纯模型 transformer 经典的技术解决方案。它将输入图成几个图像块（patch），然后将 patch 用向量表示，用 transformer 来处理图像 patch 序列，最终的输出做图像识别。但是 ViT 缺点也很明显，它将图像切块输入 Transformer，因此，图像块的内部结构信息被破坏，忽略了图像的独特性。
- 华为诺亚实验室的研究人员提出了一个基于结构嵌套的研究人员 Transformer 结构，被称为 Transformer-iN-Transformer (TNT) 结构。TNT 将图像切成块，形成 Patch 序列。TNT 不把 Patch 拉直到向量，而是将 Patch 看像素(组)序列。
- 新提出的 TNT block 使用一个外 Transformer block 来对 patch 建模两者之间的关系，用一个内部 Transformer block 建模像素之间的关系。 TNT 结构，既保留了研究人员 patch 层次信息提取，实现像素层次信息提取，可显著提高模型对局部结构的建模能力，提高模型的识别效果。

Introduction

在过去的十年里，计算机视觉(CV)主流深度神经架构主要基于卷积神经网络(CNN)上[Alexnet，Resnet，More features from cheap operations]。不同的是，transformer以自注意机制为基础的神经网络，它可以提供不同特征之间的关系。

Transformer 是一种主要基于注意机制的网络结构，输入数据的特征可以提取。计算机视觉 Transformer 将输入图像均分为多个图像块，然后提取器的特征和关系。由于图像数据中有大量的细节纹理和颜色信息，目前方法划分的图像块粒度不够细，难以挖掘不同尺度和位置特征。

Transformer广泛应用于自然语言处理(NLP)比如名字BERT和GPT-3模型。这些transformer激励整个社区研究模型的力量transformer使用视觉任务。

为了利用transformer许多研究人员探索了来自不同数据的序列信息。Wang等人在非局部网络中探索自注机制[Non-local neural networks]，用于捕捉视频和图像识别的长程相关性。Carion等人提出了DETR，它将对象检测视为直接集预测问题使用transformer解决它的编码器-解码器架构。Chen等人提出的iGPT是将纯transfer模型(即无卷积)通过自监督预训练应用于图像识别的开创性工作。
与NLP任务中的数据不同，CV任务中的输入图像和真实标签之间存在语义鸿沟。为此，Dosovitskiy等人开发了ViT【读点论文】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（ViT）图像处理自然语言_羞儿的博客-CSDN博客，为迁移基于transformer的NLP模型的成功铺平了道路。具体地说，ViT将给定的图像分成几个局部小块作为视觉序列。然后，可以自然地计算任何两个图像块之间的注意力，以生成有效的特征来识别任务。
随后，Touvron等人探索高效的数据培训和提取，以提高ViT在ImageNet基准性能，获得81左右.8%的ImageNet top-1的准确性相当于最先进的卷积网络。Chen等待人们进一步将图像处理任务(如去噪和超分辨率)视为一系列翻译，并开发了用于处理多个低级计算机视觉问题的模型[Pre-trained image processing transformer]。
如今，transformer越来越多的计算机视觉任务使用了架构[A survey on vision transformer]，如图像识别、对象检测和分割。
尽管上述视觉transformer为了提高模型的性能，我们做出了巨大的努力，但大多数现有的工作都遵循ViT传统的表示方案，即将输入图像分成小块。这种精致的范式可以有效地捕捉视觉序列信息，并估计不同图像块之间的注意力。然而，自然图像在现代基准中的多样性非常高，例如，ImageNet数据集中有超过1.包含1000个不同类别的2亿张图像。
如下图所示，将给定的图像表示为局部小块可以帮助研究人员找到它们之间的关系和相似性。然而，它们也有一些高度相似的子补丁。因此，本文需要探索一种更精细的视觉图像分割方法来生成视觉序列，提高性能。
- Illustration of the proposed Transformer-iN-Transformer (TNT) framework.内部transformer块在同一层中共享。在视觉句子中共享单词位置编码。
本文提出了一种用于视觉识别的新型transformer中transformer(TNT)如上图所示。增强视觉。transformer的特征表示能力，本文首先将输入图像分成几块作为视觉句子。
传统的句子除了提取视觉句子的特征和注意力外transformer除了块，本文还在架构中嵌入了一个子transformer，用于挖掘较小视觉单词的特征和细节。具体来说，利用共享网络独立计算每个视觉句子中视觉单词之间的特征和注意力，增加参数和FLOPs(浮点运算)的数量可以忽略不计。
然后，将单词的特征集成到相应的视觉句子中。类别令牌也用于完全连接头部的后续视觉识别任务。通过提出的TNT本文可以提取细粒度的视觉信息，提供更多细节的特征。
然后，本文在ImageNet为了展示其优势，对大小对视觉单词划分的影响进行了一系列的基准和下游任务实验。结果表明，最先进transformr网络相比，TNT可以实现更好的精度和FLOPs折衷。
Transformer 网络推动了诸多自然语言处理任务的进步，而近期 transformer 开始在计算机视觉领域崭露头角。例如，DETR 将目标检测视为一个直接集预测问题，并使用 transformer 编码器 - 解码器架构来解决它；IPT 利用 transformer 在单个模型中处理多个底层视觉任务。与现有主流 CNN 模型（如 ResNet）相比，这些基于 transformer 的模型在视觉任务上也显示出了良好的性能。

Approach

本文将描述所提出的transformer中transformer架构，并详细分析计算和参数复杂性。

Preliminaries

本文先简单描述一下transformer中的基本组件，包括MSA(多头自注意力机制)、MLP(多层感知器)和LN(层归一化)。
MSA：在自注意力机制模块中，输入 $X∈\Bbb R^{n×d}$ 被线性变换成三个部分，即查询 $Q∈\Bbb R^{n×d_k}$ 、关键字 $K∈\Bbb R^{n×d_k}$ 和值 $∈\Bbb R^{n×d_v}$ ，其中n是序列长度， $d、d_k、d_v$ 分别是输入、查询(关键字)和值的维度。缩放的点积注意力应用于Q、K、V:
- $Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
- 最后，使用线性图层生成输出。多头自注意力机制将查询、键和值拆分为h个部分并并行执行attention函数，然后将每个头的输出值级联并线性投影形成最终输出。
- 注意力机制（Attention Mechanism）的本质是：对于给定目标，通过生成一个权重系数对输入进行加权求和，来识别输入中哪些特征对于目标是重要的，哪些特征是不重要的；
- 为了实现注意力机制，可以将输入的原始数据看作< Key, Value>键值对的形式，根据给定的任务目标中的Query 计算 Key 与 Query 之间的相似系数，可以得到Value值对应的权重系数, 之后再用权重系数对 Value 值进行加权求和, 即可得到输出。将注意力权重系数W与Value做**点积操作（加权求和）**得到融合了注意力的输出：
  - $Attention(Q,K,V)=W⋅V=softmax⁡(QK^T)⋅V$
- 注意力模型的详细结构如下图所示：
  - 需要注意，如果Value是向量的话，加权求和的过程中是对向量进行加权，最后得到的输出也是一个向量。
- 注意力机制可以通过对< Key, Query>的计算来形成一个注意力权重向量，然后对Value进行加权求和得到融合了注意力的全新输出，注意力机制在深度学习各个领域都有很多的应用。不过需要注意的是，注意力并不是一个统一的模型，它只是一个机制，在不同的应用领域，Query, Key和Value有不同的来源方式，也就是说不同领域有不同的实现方法。
MLP：MLP应用于自注意力层之间，用于特征变换和非线性: $M L P (X) = F C (σ (F C (X)) 、 F C (X) = X W + b$ .其中W和b分别是全连接层的权重和偏置项，σ()是激活函数如GELU。
- MLP中文叫法是多层感知机，其实质就是神经网络。MLP中文叫法是多层感知机，其实质就是神经网络。是深度神经网络(DNN)的基础算法,有时候提起DNN就是指MLP。在MLP中,层与层之间是全连接的.
- GELU激活函数
  - 全称是GAUSSIAN ERROR LINEAR UNIT,高斯误差线性单元,与Sigmoids相比，像ReLU，ELU和PReLU这样的激活可以使神经网络更快更好地收敛。高斯误差线性单元激活函数在最近的 Transformer 模型（谷歌的 BERT 和 OpenAI 的 GPT-2）中得到了应用。GELU 的论文来自 2016 年，但直到最近才引起关注。
  - $GELU(X)=x*P(X\leq x)=x*\phi(x),x～N(0,1)$ .x是输入值，X是具有零均值和单位方差的高斯随机变量。P(X<=x)是X小于或等于给定值x的概率。
  - 想使用它来创建确定性函数以用作激活。请注意，SOI（zero-or-identity）可以执行以下两项操作之一：以概率 $\phi(x)$ 做恒等映射，以概率 $1-\phi(x)$ 映射到0。对应着伯努利分布，该式子的期望（平均值)为：
    - $I*x*\phi(x)+0*x*(1-\phi(x))=x*\phi(x)\\ 近似计算：GEELU(X)=0.5*x*(1+tanh[\sqrt{\frac{2}{\pi}}*(x+0.044715x^3)])\\ GELU激活函数的倒数：\frac{dGELU(x)}{dx}=\phi(x)+x*\phi(x)^`$
    - 其中 $\Phi(x)$ 指的是x xx的高斯正态分布的累积分布，完整形式如下： $xP(X\leq x)=x*\intop_{-∞}^{x}\frac{e^{-(x-μ)^2/(2\delta^2)}}{\sqrt{2\pi}\delta}dX$ ,计算的结果约为 $0.5*x*(1+tanh[\sqrt{\frac{2}{\pi}}*(x+0.044715x^3)])$ 。
  - Gelu(u(均值)=0,σ(方差) =1),Elu(α = 1),Relu激活函数对比图
LN：层标准化是transformer中稳定训练和更快收敛的关键部分。LN应用于每个样本 $∈\Bbb R^d$ ，如下所示:
- $KaTeX parse error: Undefined control sequence: \var at position 19: …(x)=\frac{x-μ}{\̲v̲a̲r̲}\odotγ+β$
- 其中μ∈ R、δ ∈ R分别是特征的平均值和标准偏差， $\odot$ 是element-wise dot， $γ∈\Bbb R^d、β∈\Bbb R^d$ 是可学习的仿射变换参数。

Transformer in Transformer
- 给定一幅2D图像，本文将其均匀分成n个patch $∈\Bbb R^{n×p×p×3}$ 、IC替代型号，打造电子元器件IC百科大全！

【读点论文】Transformer in Transformer 细化图片结构，递归使用transformer。让图片去拟合自然语言处理的...

相关文章