锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

CVPR 2021 | 上交和国科大提出DCL:旋转目标检测新方法

时间:2022-08-10 07:30:00 gwd150传感器gwd75传感器

作者丨yangxue@知乎

来源丨https://zhuanlan.zhihu.com/p/354373013

编辑丨3D视觉工坊

一、介绍

Densely Coded Labels (DCL)是 Circular Smooth Label (CSL)优化版。DCL优化主要有两个方面:预测层过厚,对类正方形目标检测不友好。

Dense Label Encoding for Boundary Discontinuity Free Rotation Detection

文章地址:https://arxiv.org/abs/2011.09670

代码地址(已开源):

https://github.com/yangxue0827/RotationDetection

二、预测层厚

CSL编码方法和独热编码(one-hot)均属稀疏编码(Sparsely Coded Label, SCL)。稀疏编码的一个明显缺点是编码需要较长的位数CSL以下公式为例:

CSL编解码过程

其中,和分别表示角度范围(默认为180)和角度类别。

然后我们可以计算使用CSL独热编码时的编码或预测层厚度:

CSL独热编码的预测层厚度计算公式

其中表示anchor的数量。

回归角度预测的预测层厚度仅为:

回归方法的预测层厚度

以为例,CSL预测层厚度为1620,而基于回归的预测层厚度仅为9。这使得基于稀疏编码方法的参数量(Params)和计算量(GFlops)与回归方法相比,增加了26.40%和32.如下表所示,34%的模型训练和测试效率低下。

参数量(Params)和计算量(GFlops)的比较

因此,如何缩短编码长度是提高模型效率的关键。因此,我们想到了密集编码的方法(Densely Coded Label, DCL),主要编码方法有二值编码(Binary Coded Label, BCL)和格雷编码 (Gray Coded Label, GCL),其预测层厚度计算公式如下:

二值编码和格雷编码的预测层厚度计算公式

同样以例如,它们对应的预测层厚度只有72,只有1.03%的参数和1.26%的计算效率几乎与回归方法相同。以二值编码为例,下面的公式是它们的编解码过程:

BCL编解码过程

二值编码和格雷编码的伪编码:

二值编码和格雷编码伪代码

虽然编码长度大大降低,但还会引入其他几个问题。

第一个问题是,二值编码在一定程度上失去了相邻角度之间的距离,即相邻值之间的编码结果可能会发生巨大的变化CSL方法中强调的容忍度。例如,3和4在三位的二进制编码结果分别为011和100,如下表所示。

十进制数对应的三位二值编码和格雷编码

可见所有三个位置都发生了变化,导致两个角度预测误差很大。格雷码没有这样的问题,因为在一组数字编码中,任何两个相邻数字的格雷码只有一个不同。格雷码也被称为循环码,因为最大值和最小值之间只有一个不同的数字。格雷编码的缺点也很明显,尽管相邻角度之间的编码形式差别不大,但是具有较大差异的角度的编码差异也不是很明显,例如1(001)和6(101)。

第二个问题是,划分的角度类别数需要是2的指数倍,以确保每个代码对应于一个角度,否则会有大量冗余代码(尽管实验验证对这个问题影响不大)。如果将180度范围划分为对于一个类别,每个划分间隔的范围为。根据CSL理论期望误差和最大误差是文章中的计算公式和 ,这种大小的误差在是可以忽略不计的。

为了更好比较稀疏编码和密集编码,下图就是一个具体例子:

稀疏编码和密集编码的比较例子

三、类正方形目标检测的不友好

不管是CSL还是DCL,为了避免角度周期性(PoA)和边的交换性(EoE)问题,它们均采用了“角度分类+长边定义法”的组合。长边定义法有这样一个问题,他无法较好定义一个类正方形目标,如下图所示:

类正方形检测问题

图的左边是gt,右边是一种“视觉可行”的预测结果,之所以说“视觉可行”是因为此时的计算误差非常大。这个误差主要来源于角度(类正方形目标两边近似相等,因此尽管wh的顺序相反,误差依然很小)。仔细观察可以发现这两种框的角度差约等于  。其实使用周期为90的定义方法对类正方形目标来说更加合适(如OpenCV定义法),长边定义法有明显的缺陷。我的另一篇文章GWD详细讨论了这种问题,有一句话概括长边定义法出现这种问题的原因:目标长宽比的减小使得评估(IoU)和损失(  -norm)之间的不一致性逐渐被放大。

针对这个问题以及第一个问题中提到的容忍性的消失,我们设计了一个损失权重(ADARSW),具体公式如下:

ADARSW权重

具体的想法是通过预测和gt的十进制差值来引入容忍性,三角函数的引入来解决角度周期性和类正方形检测问题(通过长宽比来调整  参数,从而调整三角函数的周期)。

四、实验结果

下表是对角度离散化粒度  的消融实验。尽管理论上越小,理论误差越小,预测精度上限越高,但是会增加角度分类的难度。越大也不好,太大的话理论误差太大,预测精度上限太低。一个合适的取值范围是[180/32-180/256]。并且我们发现,基于分类的角度预测方法(CSL和DCL)比基于回归方法在高精度  上更有优势,并且DCL比CSL效果更好,当然效率也更高。

角度离散化粒度的消融实验

下表是对所提权重的消融实验,主要列举了DOTA数据集中10种长宽比比较小的类正方形目标,并验证了ADARSW的有效性。

ADARSW的消融实验

下表是在不同数据集上对三种不同方法的比较,我们发现BCL>CSL>Reg.。

其他数据集上的效果验证

下面两个表格是所提方法在两种数据集上的SOTA对比,DCL-based方法具有一定的优势。

DOTA数据集上的SOTA方法对比

HRSC2016数据集上的SOTA方法对比

下图是对DCL方法的所预测角度的特征可视化:

RetinaNet-DCL角度特征可视化

五、总结

基于角度分类预测的方法基本告一段落,CSL和DCL验证了角度分类这条路子的可行性,那其实接下来可以研究如何更好分类,可以借鉴很多方向的分类损失设计,例如人脸识别。但是,这两篇方法并没有表现出角度分类这条路的优越性,我所看到的优势仅仅是方法本身不存在边界问题,也就是论文题目所写的Boundary Discontinuity Free,但是代价是存在理论误差以及模型参数量和计算量的增加。因此,最近我又回到了“角度回归预测+新loss设计”这条路,一个工作是GWD,欢迎大家交流讨论。

另外,简单介绍一下我所写的一个基于tensorflow框架的旋转检测benchmark:

https://github.com/yangxue0827/RotationDetection

  1. 支持的算法:RetinaNet、Faster-RCNN等baseline以及SCRDet (ICCV19)、R3Det (AAAI21)、RSDet (AAAI21)、CSL (ECCV20)、DCL (CVPR21)、GWD等创新方法;

  2. 支持的数据集:DOTA、HRSC2016、ICDAR2015、ICDAR2017 MLT、MSRA-TD500、UCAS-AOD、FDDB、OHD-SJTU、SSDD++;

  3. 提供大量不同的预训练权重和训练好的权重;

  4. 训练可视化分析,以R3Det (AAAI21)为例:

训练可视化

统计量记录

5. RotationDetection的总体框如下:

RotationDetection框架结构

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章