北大美女学霸力压何恺明新作MAE 怒摘12个SOTA,灵感竟来自16年前CVPR论文
时间:2023-01-03 21:00:00
共享对白算法屋
来源 | 新智元
编辑 | 小咸鱼 好困
**【导读】**近日,北京大学校友、约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,压力大神何恺明的新作MAE,摘下12个SOTA!
什么叫卷?
CV大神何恺明的力作「Masked Autoencoders Are Scalable Vision Learners」(MAE) 刚出来一个多月。
又有新SOTA出来了!
这是一种可用于视频模型的自监督和预训练方法:掩码特征预测(MaskFeat)。
https://arxiv.org/abs/2112.09133
简而言之,MaskFeat的ViT-B在ImageNet 1K精度达到84.0%,MViT-L在Kinetics-精度达到8600.7%,成功超越MAE,BEiT和SimMIM等方法。
一作Chen Wei是约翰·在北京大学获得计算机科学学士学位的霍普金斯大学计算机科学博士生。
并曾在FAIR、谷歌和华为诺亚方舟实验室的主要研究方向是视觉自我监督学习。
MAE刚提出就OUT了?
MAE最大的贡献可能是NLP领域和CV两个领域之间架起了更简单的桥梁。
https://arxiv.org/abs/2111.06377
以前,大名鼎鼎GPT和BERT已经将大型自然语言处理(NLP)将模型的性能提升到一个新的高度。
直观地说,就是提前覆盖一些文本片段,让它们AI通过自我监督学习和大量语料库的预训练,模型逐渐掌握上下文的背景,并以尽可能合乎逻辑的方式填写这些被覆盖的片段。
这和我们做「完形填空」类似的方法。经过大量数据的学习和训练,AI模型慢慢学会了自己生成自然文本。目前,随着GPT随着后续改进模型的不断进步,自然文本几乎可以混淆。
而何恺明的MAE就是把NLP该领域已被证明是极其有效的:「Mask-and-Predict」,用于计算机视觉(CV)在该领域,首先屏蔽输入图像的随机部分(Mask),再预测(Predict)丢失的像素(pixel)。
MAE模型简单,但效果很好。
就在上周,Facebook AI Research与约翰霍普金斯大学的研究人员合作MaskFeat,也是采用「Mask-and-Predict」性能比较的方法MAE进一步。
那MAE输在哪里?
HOG VS Pixel Colors
「Mask-and-Predict」总有一个可以「Predict」模型学习的特点。
MaskFeat核心变化是会MAE对图像像素(pixel)直接预测被图像的方向梯度直方图取代(HOG)的预测。
图像HOG特征向量
说到HOG,这不是什么新鲜事。
HOG2005年发表的经典图像特征提取算法CVPR,到目前为止,已经收获了3.7万 的引用。
https://hal.inria.fr/file/index/docid/548512/filename/hog_cvpr2005.pdf
为什么要预测图像?HOG比直接预测像素好?
作为一个预测目标,像素有一个潜在的缺点,即模型会过度拟合局部统计数据(如光照和对比度变化)和高频细节,这可能对视觉内容的解释不是特别重要。
相反,方向梯度直方图(HOG)它是通过简单的梯度滤波器(即减去相邻像素)计算每个像素的梯度大小和方向来描述局部子区域梯度或边缘分布的特征描述符。
通过将局部梯度组织化和归一化,HOG模糊问题更稳定
HOG其特点是善于捕捉局部形状和外观,对几何变化不敏感,对光的变化变。计算引入的费用仍然很小,可以忽略不计。
这次,MaskFeat引入HOG,事实上,这是一种将手工特征与深度学习模型相结合的尝试。
MaskFeat首先随机地mask输入序列的一部分,然后预测mask区域特征。
对于未见的图像验证HOG预测
然而,模型是通过预测给定的masked input(左)的HOG学习特征(中间)的原始图像(右)不用于预测。
方向梯度直方图(HOG)加入这个想法MaskFeat模型更简化,性能和效率都很好。
不使用额外的模型权重、监督和数据,MaskFeat预训练的MViT-L在Kinetics-400数据集上获得了86.7%的Top-1准确率。
这个成绩以5.2%的幅度领先之前的SOTA,也超过了使用IN-21K和JFT-300M这些大规模图像数据集的方法。
此外,MaskFeat的准确率在Kinetics-600数据集上为88.3%,在Kinetics-700数据集上为80.4%,在AVA数据集上为38.8 mAP,而在SSv2数据集上为75.0%。
结果分析
=======
Kinetics-400数据集
与不使用预训练相比,CNN,严重依赖大规模图像数据集和监督预训练Transformer的方法,MaskFeat性能极佳。
在Kinetics-400数据集的比较
经过300个epoch预训练的MaskFeat将MViT-S,16×4的81.1%的top-精度提高了1.1%。其中,16×4表示该模型在训练过程中使用16个时间跨度为4的帧作为输入。
而在K400上用MaskFeat预训练了800个epoch的MViT-L 16×4达到了84.3%的top-1精度比基线高3.8%,比使用IN-21K训练的监督模式高于0.8%。
MaskFeat也用自己的力量K没有外部数据的部数据的最佳精度(MoViNet-A6的81.5%)提高了5.2%。
此外,MaskFeat仅用K400的结果(86.7%)就能和86.5%的Florence和86.8%的SwinV2-G不相上下。其中,Florence使用9亿个文本-图像对,SwinV2-G一个参数30亿的巨型模型首先被使用IN-21K在7000万张内部图像的大型数据集中进行自我监督和监督预训练。
可以说,MaskFeat参数、计算成本、数据和注释的效率再次证明了直接在未标记视频上进行预训练的优势,也为新的视频预训练方法打开了大门。
Kinetics-600 & Kinetics-700数据集
在Kinetics-600数据集的比较
在Kinetics-700数据集的比较
MaskFeat在K600和K700分别达到8600.4%和77.5%的top-1准确率与以前基于Transformer与方法相比,外部图像数据既不使用,也不使用FLOPs还减少了10倍以上。
在更大的输入分辨率312和更长的持续时间40×3下,MaskFeat在K600上实现了88.3%的top-1准确率,在K700上实现了80.4%的top-1准确率。
于是,MaskFeat没有外部监督(如IN-21K和JFT-300M)在这种情况下,每个数据集都创造了新的SOTA。
ImageNet-1K数据集
对MaskFeat进行1600个epoch预训练,在ViT-B上微调100个epoch,在ViT-L上微调50个epoch。
图像大小为224时x224时,MaskFeat与在IN-21K与监督预训练相比,在上面进行的ViT-B上打成平手,而在ViT-L超越是直接实现的。
当图像大小为384时x384时,利用IN-21K监督预训练需要比较MaskFeat多10倍图像和标记。
一般来说,由于缺乏典型的CNN归纳偏置,ViT模型对数据要求很高,需要大规模的监督和预训练。MaskFeat特征图像修复任务可以在没有外部标记数据的情况下克服这个问题。
此外,与BEiT相比,MaskFeat只需要计算HOG特征,摆脱了dVAE的tokenizer。而后者在250M DALL-E数据集引入了额外的预训练阶段mask在预测期间引入了不可忽视的推理费用。MoCo v3和DINO相比,MaskFeat更准确、更简单。
此处MaskFeat300个预训练epoch
随着MAE、MaskFeat等模型的出现,NLP边界的制胜武器「Mask-and-Predict」会是CV监督预训练的下一个标准范式?
此,来自清华大学的知友「谢凌曦」表示:
视觉自监督领域做了这么些年,从最早的生成式学习出发,绕了一圈,又回到生成式学习。到头来,我们发现像素级特征跟各种手工特征、tokenizer、甚至离线预训练网络得到的特征,在作为判断生成图像质量方面,没有本质区别。
也就是说,自监督也许只是把模型和参数调得更适合下游任务,但在「新知识从哪里来」这个问题上,并没有任何实质进展。
参考资料:
https://arxiv.org/pdf/2112.09133.pdf
https://www.zhihu.com/question/506657286/answer/2275700206
如果觉得有用,就请分享到朋友圈吧!
关于我
你好,我是对白,清华计算机硕士毕业,现大厂算法工程师,拿过8家大厂算法岗SSP offer(含特殊计划),薪资40+W-80+W不等。
高中荣获全国数学和化学竞赛二等奖。
本科独立创业五年,两家公司创始人,拿过三百多万元融资(已到账),项目入选南京321高层次创业人才引进计划。创业做过无人机、机器人和互联网教育,保研清华后退居股东。
我每周至少更新三篇原创,分享人工智能前沿算法、创业心得和人生感悟。我正在努力实现人生中的第二个小目标,上方关注后可以加我微信交流。
期待你的关注,我们一起悄悄拔尖,惊艳所有