锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

极小人脸检测

时间:2022-10-03 06:30:00 301n色标传感器

极小人脸检测
(原文献链接:Finding Tiny Faces;GitHub链接:Finding Tiny Faces)

tags: 人脸检测

Figure 1 图1:我们描述了一个探测器,通过使用尺度、分辨率和上下文来检测小目标,大约800张脸可以从1000人中找到。 检测器的信心度由右侧的色标表示:你确定能发现识别错误吗?

摘要
尽管目标识别技术取得了巨大进展,但检测小目标仍然是一个开放的挑战。针对小人脸检测的问题,我们主要从规模不变、图像分辨率和上下文推理三个方面进行了研究。虽然大多数识别方法基于规模不变,但识别3像素的人脸和识别300像素的人脸的诱因从根本上是不同的。我们采用了一种不同的方法,根据不同的尺度训练不同的探测器。为了保持效率,探测器通过多个任务进行训练:它们使用从单个(深)特征层次结构中提取的特征。训练大目标检测器虽然直观,但关键挑战还是训练小目标检测器。我们表明,使用上下文信息非常重要,并定义了使用大规模感觉野生模板(99%的模板超出了我们感兴趣的目标)。最后,我们探索了规模在预训练深度网络中的作用,为推断网络调整提供了方法。我们展示了大规模人脸数据集的基准(FDDB和WIDER FACE)上取得的state-of-the-art的效果。特别是,与WIDER FACE与现有技术相比,我们的结果将误差降低了两倍(我们的模型AP82%,现有技术只有29-64%)。

1 介绍
尽管目标识别技术取得了巨大进展,但检测小目标仍然是一个开放的挑战。针对微小人脸检测的问题,我们主要从三个方面做了研究:尺度不变,图像分辨率和上下文推理的作用。几乎所有识别和目标检测系统的基本原则都是不变的尺度。但从实践的角度来看,不适用于分辨率有限的传感器:识别300px人脸与识别3px人脸诱因的差异是不可否认的。

尺 度 的 多 任 务 建 模 {\bf多任务建模} :最近在目标检测中使用了尺度归一化分类器(例如,在图像金字塔上运行的扫描窗口检测器[5]或ROI池化图像特征[7,18]上的区域分类器)。当区域尺寸调整为规范模板尺寸时,我们会问一个简单的问题——模板尺寸应该是多少?一方面,我们想要一个小模板来检测小脸;另一方面,我们想要一个大模板,可以使用详细的特征(即面部)来提高准确性。我们代之的是一刀切的方法,我们对不同尺度(和纵横比)的探测器进行了训练。培训大量特定尺度的检测器可能会遇到缺乏个人尺度的培训数据,以及在测试过程中运行大量检测器造成的低效率。为了解决这两个问题,我们通过多任务训练和操作规模特定的探测器:它们使用单个(深)特征层次结构的多层定义特征。虽然这种策略提高了大目标检测的准确性,但小目标检测仍然具有挑战性。

如 何 概 括 预 训 练 网 络 ? {\bf如何总结预训练网络? 我们还对小目标检测提供了两个关键见解。一是分析如何从预训练的深度网络中提取规模不变的特征。我们显示,现有网络正在调整特定尺寸的目标(如预训练数据集中,ImageNet)。为了将这些网络微调的特点扩展到新尺寸的目标,我们采取了一个简单的策略:在测试过程中通过插值和提取来调整图像大小。虽然许多识别系统通过处理图像金字塔来应用于多分辨率,但我们发现金字塔底部的插值对检测小目标尤为重要[5]。因此,我们的最终方法(图2)是将特定的尺度探测器微妙地结合起来,并以不变的尺度(通过处理图像金字塔捕获大规模变化)。

Figure 2 图2:捕获尺度不变的不同方法。传统方法构建适合精细离散的图像金字塔(a)单尺度模板。为了利用不同分辨率提供的不同线索,可以为不同的对象尺度构建不同的检测器(b)。这种方法在训练(或预训练)数据中很少观察到极端物体尺度的失败。我们在?采用粗略的图像金字塔来捕捉极端尺度。最后,为了提高小人脸检测的性能,我们建立了额外的上下文,有效地实现了所有特定尺度的模板(d)感觉野的固定大小。我们将模板定义为多层模型的特征,类似于中心凹描述符(e)。

如 何 最 好 地 编 码 上 下 文 ? {\bf上下文怎么编码最好? 检测小目标是一个根本的挑战,因为目标上没有信号可用。因此,我们认为必须使用超出目标范围的图像证据。这通常被称为上下文。在图3中,我们提出一个简单的人类实验,用户尝试分类是人脸还是非人脸(由我们的检测器给出)。显然,人类需要上下文来准确分类小人脸。虽然这种观察在计算机视觉中是非常直观和高度探索的[16、22],但很难量化上下文在识别中的好处[4、6、33]。其中一个挑战似乎是如何有效地编码大图像区域。我们证明,从多层(也称为超列特征[8、14])中提取的卷积深度特征是一个有效的中心凹描述符,可以捕捉高分辨率细节和粗略的低分辨率线索(如图2所示(e)所示)。在图5中,我们展示了我们的中心凹描述符(从较低的卷积层中提取)的高分辨率部分,对准确定位至关重要。

Figure 3 图3:在左边,无论是否有上下文,我们都可以看到一张大脸和一张小脸。不需要上下文就能识别大人脸,没有上下文就不能识别小人脸。我们通过右侧的简单人工实验量化了这一观察,用户对我们提出的检测器的正面进行了真假分类。添加一定比例的上下文(3X扩大窗口)对大人脸检测提供了小的提升,但对于小人脸检测是不够的。固定的上下文窗口加入300像素,显著减少了小人脸检测误差的20%。这表明上下文应以尺度变化的形式建立。我们通过大野的中心凹模板(黄色框的大小约是300x300)实现这一观察。

我 们 的 贡献 : {\bf我们的贡献:} 为了检测小人脸,我们对图像分辨率,对象尺度和空间上下文进行了深入分析。我们展示了在大规模人脸数据集基准(FDDB和WIDER FACE)上取得的state-of-the-art的结果。特别是,与WIDER FACE上的现有技术相比,我们的结果将误差降低了2倍(我们的模型的AP达到了82%,而现有技术只有29-64%)。

2 相关工作
尺 度 不 变 : {\bf尺度不变:} 绝大多数识别流水线把重心放在尺度不变的表示上,可追溯到SIFT [15]。目前的检测方法如Faster RCNN [18]也遵循这一理念,通过ROI池化或图像金字塔提取尺度不变特征[19]。 有时为了提升速度[3],我们对之前在行人检测上提出的尺度变化的模板进行了深入研究[17]。SSD [13]就是一种基于使用尺度变化模板的深层特征的最新技术。我们的工作在我们对微小目标检测的上下文的探索方面有所不同。

上 下 文 : {\bf上下文:} 上下文是检测小目标实例的关键,如多重识别任务。在物体检测中,[2]在感兴趣区域之外堆叠空间RNN(IRNN [11])模型上下文提升了小物体检测的性能。在行人检测中,[17]使用地平面估计作为上下文特征改善了对小目标实例的检测。在人脸检测中,[28]同时对面部和身体周围的ROI特征进行评分检测,从而显着提高了整体表现。我们的工作提出以一种尺度变化的方式(与[28]相反)使用大的本地上下文(而不是全局上下文描述符[2,17])。我们显示,上下文对于检测低分辨率人脸是最有用的。

多 尺 度 表 示 : {\bf多尺度表示:} 多尺度表示已被证明对许多识别任务是有用的。[8,14,1]表明,深层多尺度描述符(称为“超列”)对语义分割很有用。[2,13]对这种目标检测模型进行了改进。[28]池化了多尺度的ROI特征。我们的模型使用了“超列”特征,指出精细尺度的特征对于定位小物体最为有用(第3.1节和图5)。

R P N : {\bf RPN:} RPN我们的模型表面上类似于针对特定对象类训练的区域候选网络(RPN)[18]而不是一般的“对象”候选生成器。重要的区别是我们使用中心凹描述符(通过多尺度特征实现),我们通过交叉验证选择一系列对象的尺寸和纵横比,我们的模型采用一个图像金字塔来找到极端尺度。特别地,我们用于检测小目标的方法使用了针对图像插值进行调整的他定尺度检测器。如果没有这些修改,那么在小人脸上的检测性能将显著下降10%以上(见表1)。

3 探索上下文和分辨率
在本节中,我们将介绍一下对游戏中的问题的探索性分析,这将为我们的最终模式提供信息。为了构思讨论,我们提出以下简单的问题:找到固定大小(25x20)的小人脸的最佳方式是什么?通过明确地根据期望输出分解出尺度变化,我们可以探索上下文和规范模板尺寸的作用。直观地,上下文对于小人脸检测至关重要。典型模板的大小可能看起来像是对一个陌生维度的研究 - 鉴于我们想要检测大小为25x20的人脸,为什么要定义25x20以外的任何大小的模板?我们的分析关于什么时候为什么这样做给出了一个令人惊讶的答案。为了更好地了解我们分析的用意,我们还会针对大目标尺寸询问类似的问题:找到固定大小(250x200)的大人脸的最佳方法是什么?

设 置 : {\bf设置:} 我们针对构建固定大小(例如25x20)人脸的滑窗检测器探索了不同的策略。我们将固定大小的物体检测视为二值热图预测问题,其中像素位置 ( x , y ) (x,y) (x,y)处预测的热图指定以 ( x , y ) (x,y) (x,y)为中心的固定尺寸检测的置信度。我们使用全卷积网络(FCN)[14]来对热图预测器进行训练,这些网络定义在state-of-the-art的架构ResNet [9]上。我们探索在ResNet-50中从每个残差模块的最后一层提取的多尺度特征,即(res2cx,res3dx,res4fx,res5cx)。我们以后将其称为(res2,res3,res4,res5)特征。我们将在第5节讨论我们训练流程的剩余细节。

3.1 上下文
图4给出了由用于进行热图预测的感受野(RF)大小给出的上下文影响的分析。回想一下,对于固定大小的检测窗口,我们可以选择使用具有相对于该窗口任意更小或更大的感受野的特征进行预测。因为较高层的卷积特征倾向于具有较大的感受野(例如,res4特征跨越291×291像素),较小的感受野需要使用较低层特征。我们看到一些总体趋势。添加上下文几乎总是有帮助的,尽管最终对于小人脸(超过300x300像素)附加的上下文无益。我们证实这是由于过拟合导致的(通过检查训练和测试性能)。有趣的是,越小的感受野对小人脸检测作用越好,因为整个脸部都是可见的 - 如果只寻找鼻尖,则很难找到大人脸。更重要的是,我们通过将“紧密”RF(限于目标范围)与最佳评估的附加上下文的“松散”RF的性能进行比较来分析上下文的影响。小人脸的精度提高了18.9%,而大人脸的精度提高了1.5%,与我们的人类实验一致(这表明上下文对于小目标实例最有用)。我们的研究结果表明,我们可以为具有相同感受野(大小为291x291)的不同大小的检测器构建多任务模板,作为多通道热图预测问题这实现起来特别简单(其中每个特定尺度的通道和像素位置具有自己的二值损失)。在图5中,我们比较了一下具有和不具有中心凹结构的描述符,这表明我们的中心凹描述符的高分辨率组件对于小目标实例的精确检测至关重要。

Figure 4 图4:建模附加上下文是有利的,特别是检测小人脸。对于小人脸(18.9%)而言,将上下文添加到一个紧密模板中的性能提升比大人脸(1.5%)更大。有趣的是,较小的感受野对于小人脸检测更有利,因为整个脸部都是可见的。绿色框表示实际的脸部大小,而虚线框表示与来自不同层的特征相关联的感受野(青色=res2,浅蓝色=res3,深蓝色=res4,黑色=res5)。图5和7中使用了相同的颜色。

Figure 5 图5:中心凹描述符对于小目标的精确检测至关重要。只有res4的小模板(顶部)性能下降了7%,而只有res5的性能下降了33%。相反,去除中心凹结构不会损害大的模板(底部),表明较低层的高分辨率主要用于检测小目标!

3.2 分辨率
我们现在研究一个很奇怪的问题。如果我们训练一个模板,其大小有意不同于要检测的目标对象将会怎样?在理论上,可以在2倍大小的上采样(插值)测试图像上使用“中等”尺寸模板(50x40)检测小人脸(25x20)。图7实际上显示出惊人的结果,这显著地提高了性能,从69%到75%!我们针对大人脸询问相反的问题:能够通过在2倍大小的下采样测试图像上运行一个针对“中等”人脸(125x100)的可调整模板来检测大人脸(250x200)吗?再次,我们看到性能有明显的提升,从89%上升到94%!

一个解释是我们对不同的物体尺寸有不同数量的训练数据,我们期望拥有更多训练数据的那些尺寸的性能更好。在“自然场景”数据集(如WIDER FACE和COCO[12])中的重复观察是,较小的对象大大超过较大的对象,部分原因是固定大小的图像中可以标记更多的小东西。如图8所示(灰色曲线)我们在WIDER FACE上验证了这一点。虽然不平衡的数据可能解释了为什么通过中等模板检测大人脸更容易(因为有更多的中等尺寸的人脸用于训练),但这并不能解释小人脸的结果。中等人脸的训练实例较少,但使用中等大小的模板,性能仍然更好。

我们发现罪魁祸首在于预训练的数据集(ImageNet)中目标尺度的分布。图6显示,ImageNet中80%的训练样本包含40到140像素之间的“中等”大小的目标。具体来说,我们假设预训练的ImageNet模型(用于微调我们的特定尺度检测器)是针对该范围内的目标进行了优化的,并且应该将模板大小偏大化到可能的范围内。我们会在下一节中描述一种用于构建具有不同规范分辨率的特定尺度检测器的管道,并验证这一假设。

Figure 6 图6:ImageNet数据集中目标尺度的平均分布(假设图像归一化为224x224)。超过80%的类别的平均目标尺寸在40到140像素之间。我们假设在ImageNet上预训练的模型针对该范围内的目标进行了优化。

Figure 7 图7:以原始分辨率构建模板不是最佳的。为了检测小人脸(25x20),以2倍分辨率构建模板可以将整体精度提高6.3%;而为了检测大人脸(250x200),以0.5倍分辨率构建模板可以将整体精度提高5.6%。

Figure 8 图8:模板分辨率分析。X轴表示通过聚类导出的目标对象大小。左Y轴显示每个目标大小的AP(忽略超过0.5个Jaccard距离的目标)。自然状态出现在图中:为了检测大人脸(高度超过140px),以0.5倍分辨率构建模板;要检测较小的人脸(高度小于40px),请以2倍分辨率构建模板。对于两者之间的大小,以1倍分辨率构建模板。右Y轴与灰色曲线一起显示每个目标大小在0.5个Jaccard距离内的数据的数量,表明更多的小人脸被注释。

4 方法:特定尺寸检测
很自然提出一个后续问题:是否有一个一般策略来为特定对象大小选择模板分辨率? 我们证明,可以利用多任务学习,以“蛮力”的方式,以不同的分辨率训练几个模板,并贪婪地选择最好的模板。事实证明,似乎有一个一般的策略与上一节中的分析一致。

首先,我们来定义一些符号。我们使用 t ( h , w , σ ) t(h,w,\sigma) t(h,w,σ)来表示一个模板。这样一个模板以分辨率 σ \sigma σ来调整用于检测尺寸为 ( h / σ , w / σ ) (h/\sigma,w/\sigma) (h/σ,w/σ)的目标。例如,图7的右半边使用 t ( 250 , 200 , 1 ) t(250,200,1) t(250,200,1)(上)和 t ( 125 , 100 , 0.5 ) t(125,100,0.5) t(125,100,0.5)(底部)来找到250x200的人脸。

给定图像和边界框的训练数据集,我们可以定义一组粗略覆盖边界框形状空间的典型边界框形状。在本文中,我们通过基于Jaccard距离 d d d(方程(1))推导出的聚类来定义这种典型形状: d ( s i , s j ) = 1 − J ( s i , s j ) ( 1 ) d(s_i,s_j)=1-J(s_i,s_j)\qquad (1) d(si,sj)=1J(si,sj)(1)其中, s i = ( h i , w i ) s_i=(h_i,w_i) si=(hi,wi) s j = ( h j , w j ) s_j=(h_j,w_j) sj=(hj,wj)是一对边界框形状, J J J表示标准Jaccard相似度(IoU重叠)。

现在对于每个目标对象的大小 s i = ( h i , w i ) s_i=(h_i,w_i) si=(hi,wi),我们问: σ i \sigma_i σi取什么值将最大化 t i ( σ i h i , σ i w i , σ i ) t_i(\sigma_i h_i,\sigma_i w_i,\sigma_i) ti(σihi,σiwi,σi)的性能?为了回答,我们只需为 σ ∈ Σ \sigma \in \Sigma σΣ(一些固定集合)的每个值分别训练单独的多任务模型,并为每个对象尺寸取最大值。我们将每个特分辨率的多任务模型的性能绘制为图8中的彩色曲线。对于每个 ( h i , w i ) (h_i,w_i) (hi,wi)的最优的 σ i \sigma_i σi,我们用“混合”分辨率(称为HR)重新训练一个多任务模型,实际上遵循所有曲线的上部包络。有趣的是,存在着不同策略的自然制度:检测大目标(高度大于140px),使用小2倍的典型分辨率。要检测小目标(高度小于40像素)使用大2倍的典型模板分辨率。否则,使用相同的(1X)分辨率。我们的结果密切跟随ImageNet的统计数据(如图6所示),大多数目标都属于该范围。

修 剪 : {\bf修剪:} 上一节中的混合分辨率多任务模型有些冗余。例如,模板 ( 60 , 50 , 2 ) (60,50,2) (60,50,2)是找到31x25人脸的最佳模板,由于模板 ( 64 , 50 , 1 ) (64,50,1) (64,50,1)的存在是冗余的,这是找到64x50人脸的最佳模板。我们可以修剪这样的冗余吗?是!为了直观的描述,我们将读者引用到图9的标题。如表1所示,修剪冗余模板导致了一些小的提升。基本上,我们的模型可以减少到一小组尺度特定的模板(调整为40-140像素的人脸),可以在粗的图像金字塔(包括2X插值)上运行,并结合一组设计的特定尺度的模板用于在2X插值图像中检测小人脸(高度小于20像素)。

Figure 9 图9:修剪冗余模板。假设我们在粗图像金字塔(包括2X插值)上测试以1X分辨率(A)构建的模板。它们将覆盖更大范围的尺度,除了极小的尺寸,最好使用2X构建的模板进行检测,如图8所示。因此,我们的最终模型可以减少到两小组特定尺度的模板:(A)调整为40-140像素的人脸,并运行在粗图像金字塔(包括2X插值)和(B)调整为小于20px人脸的只能在2X插值图像中运行。

Table 1 表1:修剪冗余模板不会影响性能(验证)。作为参考,我们还包括了第2节所述的朴素RPN的表现。(Full)和(A + B)的可视化请参考图9。

4.1 架构
在图10中可以看出我们所提出的架构。我们训练二值多通道热图预测器来得到一系列人脸尺寸(高度为40-140像素)的目标置信度。然后,我们发现具有粗的图像金字塔的较大和较小的人脸,其重要地包括仅针对该分辨率预测的专用热图的2X上采样阶段(例如,针对小于20像素的小面设计)。对于共享的CNN,我们尝试了ResNet101,ResNet50和VGG16。尽管ResNet101表现最好,但是我们还是在表2中收录了所有模型的性能。我们看到所有模型都在现有技术的“hard”集上实现了实质性的改进,其中包括CMS-RCNN[28],它也模拟了上下文,只不过是以成比例的方式(如图3所示)。

Figure 10 图10:我们的检测流水线概述。从输入图像开始,我们首先创建一个粗图像金字塔(包括2X插值)。然后,我们将缩放的输入图像输入到CNN中,以便在每个分辨率下预测模板响应(用于检测和回归)。最后,我们以原始分辨率应用非最大抑制(NMS)来获得最终检测结果。虚线框代表端到端的可训练部分。我们在粗图像金字塔(包括2X插值)上运行A型模板(调整为40-140像素的人脸),而仅在2X插值图像上运行B型(调整为小于20像素的人脸)模板(如图9)

Table 2 表2:具有不同体系结构的模型性能的验证。ResNet101的性能略好于ResNet50,远优于VGG16。重要的是,我们基于VGG16的模型已经在“hard”集上大幅度优于现有技术。

详 细 信 息 : {\bf详细信息:} 给定带有目标和模板的ground truth注释的训练图片,我们定义正样本为IOU重叠超过70%的位置,负样本为重叠低于30%的位置(所有其他位置通过梯度清零被忽略)。请注意,这意味着每个大目标实例比小实例生成更多的正的训练示例。由于这导致了高度不均衡的二值分类训练集,我们利用均衡采样[7]和困难样本挖掘[21]来改善这种效果。我们发现采用微调得到边界框位置的后处理线性回归器可使性能提高。为了确保我们训练的数据类似于测试条件的数据,我们考虑基于测试时间(0.5x,1x,2x)在分辨率 Σ \Sigma Σ的范围内随机调整训练数据的大小,并学习从每个图像中随机抠取500x500的固定大小区域(以利用批处理)。我们将固定学习率为 1 0 − 4 10^{-4} 104的WIDER FACE训练集上的预训练ImageNet模型进行微调,并评估WIDER FACE验证集(用于诊断)和扩展测试集的性能。为了得到最终检测结果,我们将标准的NMS应用于30%重叠阈值的检测热图。我们在附录B中讨论我们的程序的更多训练细节。我们的代码和模型可以在线获取,网址为https://www.cs.cmu.edu/~peiyunh/tiny。

5 试验
W I D E R   F A C E : {\bf WIDER\ FACE:} WIDER FACE我们在WIDER FACE的训练集上训练一个包含25个模板的模型,并得到我们最佳模型HR-ResNet101(A+B)在留存的测试集上的性能。如图11所示,我们的混合分辨率模型(HR)在所有难度级别上达到了state-of-the-art的性能,但最重要的是减少了2X的“hard”集合的误差。请注意,“hard”集包括高于10px的所有人脸,因此在完整的测试集上能更准确地表示其性能。在图13中我们可视化了在某些具有挑战性的情况下的性能。请参考基准网站进行全面评估和我们的附录A进行更定量化的诊断[10]。

Figure 11 图11:WIDER FACE“hard”测试集的精确召回曲线。与现有技术相比,我们的方法(HR)将误差降低了2倍。

Figure 12 图12:FDDB测试中的ROC曲线。我们的预训练检测器(HR)产生state-of-the-art的离散检测(左)。通过学习将边界框转换为椭圆的后置回归,我们的方法(HR-ER)也产生state-of-the-art的连续重叠(右)。我们只比较公布的结果。

F D D B : {\bf FDDB:} FDDB我们在FDDB上测试我们的WIDER FACE训练模型。我们的out-of-the-box检测器(HR)在离散分数上优于所有发布的结果,该分数使用标准的50%IoU阈值来定义正确性。因为FDDB使用椭圆边界框,而WIDER FACE使用矩形边界框,我们训练一个后置线性回归器,以将边界框预测转换为椭圆。通过事后回归,我们的检测器在连续分数(测量平均边界框重叠)上也能获得state-of-the-art的性能。我们的回归器采用10-折交叉验证来训练。图12绘出了具有和不具有椭圆回归(ER)的检测器的性能。定性结果如图14所示。请参阅我们的附录B,了解我们的椭圆回归计算公式。

Figure 13 图13:WIDER FACE的定性结果。我们可以看出每个属性和尺度的一个例子。我们提出的检测器能够在连续的尺度范围内检测人脸,同时对诸如表情,模糊,照明等的挑战具有鲁棒性。请放大以寻找一些非常小的人脸的检测结果。

Figure 14 图14:FDDB的定性结果。绿色椭圆框是ground truth,蓝色边框是检测结果,黄色椭圆框是回归椭圆框。我们提出的检测器对于严重的遮挡,大的模糊,大的外观和尺度变化是鲁棒的。有趣的是,在这种挑战下的许多人脸甚至没有注释(第二个例子)。

运 行 时 间 : {\bf运行时间:} 我们的运行时间是通过在2倍的上采样图像上运行“全卷积”网络控制的。我们的基于Resnet101的检测器在1080p分辨率下的运行时间为1.4FPS,在720p分辨率下的运行时间为3.1FPS。重要的是,我们的运行时间与图像中的人脸数量无关。这与基于候选框的检测器(例如Faster R-CNN [18])形成对比,该检测器运行时间与候选框的数量呈线性关系。

结 论 : {\bf结论:} 我们提出了一个简单而有效的小目标检测框架,表明大的上下文和尺度变化表示都是至关重要的。我们具体表示,大范围的感受野可以有效地编码为捕捉粗略上下文(检测小对象所必需的)和高分辨率图像特征(有助于定位小对象)的中心凹描述符。我们还研究了现有预训练深度网络中的尺度编码,提出了一种简单的方法,可以基于尺度变化的方式将尺度有限的网络调整到更加极端的场景中。最后,我们使用我们对尺度,分辨率和上下文的详细分析来开发出state-of-the-art的人脸检测器,其显著优于标准基准上之前的工作。

致 谢 : {\bf致谢:} 本研究基于NSF Grant 1618903,英特尔视觉云系统技术中心(ISTC-VCS),谷歌和国家情报局局(ODNI),情报高级研究部门项目组(IARPA)的工作支持,通过IARPA R&D合同号2014-14071600012认证。本文所载的观点和结论是作者的观点和结论,不应被解释为必须代表ODNI,IARPA或美国政府的明示或暗示的官方政策或认可。尽管有任何版权注释,美国政府有权复制和分发用于政府目的的转载。

A 误差分析
定 量 分 析 {\bf定量分析} 我们在图15中绘制了假阳性误差模型的分布,在图16和图17中绘制了目标特性对检测性能的影响。

Figure 15 图15:假阳性误差模型的分布。背景混乱似乎是最高评分检测中的主导错误模式,但是,如图18所示,我们发现20个最高评分的假阳性样本中有15个是实际上由于注释错误。

Figure 16 图16:灵敏度图的总结。我们在图17中绘制了 A P N AP_N APN的最大值和最小值。我们的检测器主要受物体尺度(从0.044到0.896)和模糊(从0.259到0.798)的影响。

Figure 17 图17:目标特性的灵敏度和影响。我们为每个特性显示归一化AP [10]。有关“BBox面积”,“BBox高度”和“长宽比”的定义,请参阅[10],并参考[26]对“Blur”,“Expression”,“Illumination”,“Occlusion“和“Pose”的定义。在极小尺度,极度偏斜的长宽比,大模糊和重度遮挡的情况下,我们的检测器表现低于平均水平。令人惊讶的是,夸张的表情和极度的照明与更好的表现有关。姿态变量没有明显的影响。

定 性 分 析 {\bf定性分析} 我们在图18中显示出前20个假阳性的得分。

Figure 18 图18:验证集上得分前20的假阳性样本。错误类型标记在每个图像的左下角。 “face(bg)”代表混淆目标和背景,“face(loc)”代表检测位置错误。“ov”表示与ground truth边界框的重叠率,“1-r”表示其置信度低于当前值的检测的百分比。我们的检测器似乎可以找到没有注

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章