锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

【读点论文】Transformer in Transformer 细化图片结构,递归使用transformer。让图片去拟合自然语言处理的...

时间:2023-11-21 18:37:02 yl1雨量传感器

Transformer in Transformer

Abstract

  • Transformer通过注意机制,是一种新的神经架构将输入数据编码为强大的特征基本上,视觉transformer先将输入图像分成几个局部小块,然后计算两种表示及其关系。

  • 由于自然图像具有高度的复杂性和丰富的细节和颜色信息,块划分的粒度不同,以挖掘不同尺度和位置的物体特征。

  • 本文指出了这些局部部位补丁内部的注意力是构建高性能视觉transformer也是必不可少的,并探索了一种新的结构,即transformer中的transformer(TNT)。

  • 具体来说,本文将是局部小块(如16)×16)视为视觉句子提出将其进一步划分为更小的小块(如4×4)作为视觉单词。每个单词的注意力将与给定视觉句子中的其他单词一起计算,计算成本可以忽略不计。

  • 单词和句子的特征将被聚合,以增强表达能力。几个基准的实验证明了提出的TNT例如,本文的模型是系统结构的有效性ImageNet上获得了81.5%的top-1精度,比计算成本相似的最先进的视觉转换器高1左右.7%。

  • PyTorch代码可在https://github.com/huawei-noah/CV-Backbones,获得,

  • MindSpore代码可在https://gitee.com/mindspore/models/tree/master/research/cv/TNT获得。

  • 提出了一个新颖的Transformer-iN-Transformer(TNT)模型,用于对 patch建模级和像素级表示

  • 在这里插入图片描述

    • 在每个TNT块中,外部transformer块用于处理patch内部嵌入transformer块从像素嵌入中提取局部特征。通过线性变换层投影像素级特征patch嵌入空间,然后添加到patch中。通过堆叠TNT本文建立了用于图像识别的块TNT模型。
  • 华为诺亚实验室研究人员提出了一种新的视觉 Transformer 网络架构 Transformer in Transformer,其表现优于谷歌 ViT 和 Facebook 的 DeiT。TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。

    • 谷歌 ViT(Vision Transformer)模型是视觉任务的纯模型 transformer 经典的技术解决方案。它将输入图成几个图像块(patch),然后将 patch 用向量表示,用 transformer 来处理图像 patch 序列,最终的输出做图像识别。但是 ViT 缺点也很明显,它将图像切块输入 Transformer,因此,图像块的内部结构信息被破坏,忽略了图像的独特性
    • 华为诺亚实验室的研究人员提出了一个基于结构嵌套的研究人员 Transformer 结构,被称为 Transformer-iN-Transformer (TNT) 结构。TNT 将图像切成块,形成 Patch 序列。TNT 不把 Patch 拉直到向量,而是将 Patch 看像素(组)序列
    • 新提出的 TNT block 使用一个外 Transformer block 来对 patch 建模两者之间的关系,用一个内部 Transformer block 建模像素之间的关系。 TNT 结构,既保留了研究人员 patch 层次信息提取,实现像素层次信息提取,可显著提高模型对局部结构的建模能力,提高模型的识别效果。

Introduction

Approach

相关文章