（AAAI-2019）用于行人重识别的水平金字塔匹配

时间：2022-08-18 09:30:02 fci连接器10075025

水平金字塔匹配用于行人重新识别

论文题目：Horizontal Pyramid Matching for Person Re-Identification

paper贝克曼研究所出版AAAI2019上的工作

论文地址：链接

Abstract

尽管重新识别行人（Re-ID）取得了显著进展，但这种方法仍然存在识别身体部位缺失的失败案例。为了减少这种类型的失败，作者提出了一有效的水平金字塔匹配（HPM）该方法充分利用给定人的各个部分信息，即使缺少一些关键部分，也能识别出正确的候选人。借助 HPM，为 Re-ID 对任务生成更稳定的特征做出了以下贡献： 1)利用不同层次金字塔尺度的部分特征进行分类，成功提高了各人体部位的判断能力； 2)利用平均池化和最大池化，以全局局部的方式解释具体的个人判断信息。为了HPM方法的有效性，在 Market-1501、DukeMTMC-ReID 和 CUHK03 在三个流行数据集中进行了广泛的实验。分别获得了这些具有挑战性的基准 83.1%、74.5% 和 59.7% 的 mAP 这些都是新的最先进水平。

Introduction

行人重识别 (Re-ID) 它旨在从一组图像中重新识别查询人员，这些图像是由多个摄像头随时拍摄的。由于人类属性（如姿势、步态、衣服）和环境设置（如照明、复杂的背景和屏蔽）的巨大变化，这对每个人来说都是一个挑战。

为了解决视觉线索的复杂性，基于深度学习的方法提供了有前途的解决方案。然而，这些方法只利用了整体人物的特征，实际上对缺失的关键部分非常敏感。

为了缓解这些问题，最近的许多方法都专注于学习一些特征的判断。这些方法通常利用身体大小和服装标志等局部特征来增强 Re-ID 鲁棒的方法。根据局部区域生成方案，可分为三种类型。在第一类中，估计和提取姿势或身体标志等先验知识来定位区域。但是，在这种情况下，Re-ID 性能高度依赖于姿态或地标估计模型的鲁棒性。意外的错误，如姿势估计错误，可能会极大地影响识别结果。第二类，基于注意力的方法，侧重于通过定位感兴趣的明显区域（ROI）在深度特征图中自适应地提取高激活信息。然而，所选区域缺乏语义解释。第三种类型将深度特征图切割成预定义patch或条带，假设图像完全对齐，因此很容易引入异常值。

作者提出了一种简单有效的方法，称为水平金字塔匹配，以有效地学习部分特征，消除意外位置变量和不对齐造成的负面影响 (HPM)。我们的 HPM 旨在利用人的全局和部分信息，同时以更强大、更有效的方式执行 Re-ID 任务。具体而言，本文做出了以下三项贡献：

深度特征图用于以下池化操作，称为水平金字塔池化（HPP），并学习独立分类不同金字塔尺度输出的每个空间条带特征。直观地说，多尺度条带的使用将包含松弛距离，以减少不对齐引起的异常值。此外，独立学习多尺度信息将增强在所有特定尺度行人中学习的识别信息。
结合每个分区的平均池特征和最大池特征。特别是，平均池可以感知每个空间条带的整体信息，并考虑背景的上下文。相比之下，最大池目标提取了最具辨别力的信息，并忽略了主要来自类似服装或背景的干扰信息。整合它们，以平衡这两种策略的有效性。
三个主流行人重新识别数据集 Market1501、DukeMTMC-ReID 和 CUHK03(使用新协议)评估本文提出的方法。实验结果表明，本文的模型在端到端击败了大多数最先进的方法。

图1中显示的示例HPM。首先提取具有多卷积层的给定图像的特征表示，并以不同的金字塔比例水平切割特征图。然后独立表示各部分条带的全局平均池化和最大池化特征Re-ID。这样学习HPM，它可以更有效地提高部分判断能力，从而克服当前解决方案的缺点（如对丢失的关键部分或错位敏感）。图 2 显示了带HPM和不带HPM方案学习最后一个卷积特征图的热图。可以观察到，本文的 HPM 为了获得更好的行人重识别结果，可以识别出更具辨别力的部分。

图 1.提出的水平金字塔匹配示意图。将一个人分为多个尺度的不同层次。然后利用每个部分的整体平均池化 (GAP) 全局最大化池化 (GMP) 独立学习行人的特征表示Re-ID。

图 2：Person Re-ID 中带 HPM 和不带 HPM 比较结果。

在 Market-1501、DukeMTMC-ReID 和 CUHK03 大量的实验和消融研究证明了每种设计的有效性。特别是在三个基准测试中mAP得分分别为 83.1%、74.5% 和 59.分别超过7% state-of-hearts 1.5%、5.3% 和 2.2%。

Related Work

Deep learning for Person Re-ID

基于深度学习的方法 Re-ID 社区占主导地位。 Yi首先，使用深度神经网络来确定一对输入图像是否属于同一个 ID。一般来说，行人重新识别使用两种模型：验证模型和识别模型。

对于验证模型，Ahmed[2]使用双胞胎神经网络或三元组损失提取具有相同身份的图像，并推开具有不同身份的图像。Hermans等人[3]提出了一种三元组损失的变体来实施端到端深度学习，这比许多其他已发表的方法要好得多。然而，一般来说，这种模型是大的gallery效率会下降。这是因为它没有充分利用Re-ID注释。

对于识别模型，它试图学习给定输入图像的识别表示，并且总是比验证模型产生更高的准确性。Xiao[4]等人提出了一个新颖的 dropout 有多个数据集的分类模型进行联合训练。在[5]中，验证和分类损失结合在一起，同时学断嵌入和相似性。在[6]中，提出了基于部分卷积网络的部分信息特征。

Part-based Model

最近，为了获得细粒度的人的判断特征，许多工作从局部生成了深度表征。这种基于部分的模型可以分为三类。第一类是基于姿势估计和目标检测[7]等一些先验知识。这些方法都有一个共同的缺点，即姿势估计与人物检索的数据集之间存在差距。二是放弃分割的语义线索。例如，Yao等人[8]采用部分损失网络，强迫深度网络学习不同部分的表征，并获得判断未见者的能力。第三，分区被切割成预定义patch。Sun等人[9]提出基于部分卷积Baseline（PCB）学习分区特征的判别性。然而，PCB它可能会遭受一些离群值，这使得每个分区不一致，所以他们提出Refined Part Pooling （RPP）加强部分的一致性。

Spatial Pyramid Pooling

由于全连接层的卷积神经网络总是需要固定的输入大小。为了消除这种约束，He等人[10]提出 Spatial Pyramid Pooling 无论输入大小如何，网络都能在局部空间产生固定长度的输出 bin 中进行池化来维护空间信息。多级空间池化也被证明是目标变形的鲁棒。可提高分类和目标检测任务的性能。类似地，金字塔池化模块也用于[11]，金字塔级池化将特征图分为不同的子区域，形成不同位置的池化表示。

Proposed Method

本节描述了水平金字塔匹配（HPM）框架结构，如图所示 3 所示。发送输入图像backbone网络提取特征图。之后，利用水平空间金字塔池模块获取每个局部和全球空间bin中间的空间信息。每个水平空间bin，同时，利用全局平均池操作和最大池操作，获得全局和人体最具辨别力的部分。然后，使用卷积层将列特征图的维度从 2048 减少到将每列特征输入独立的全连接层，然后使用 softmax 预测每个输入图像的函数 ID。在测试过程中，将所有这些特征连接在一起以获得最终结果 Re-ID 特征表示。下面将给出更多细节。

图3：水平金字塔匹配（HPM）方法概述。输入图像首先通过卷积神经网络提取其特征图。然后，利用水平金字塔收集，利用全局平均池化和全局最大池化生成各部分的特征。最后，将各部分的预测发送到分类器中进行部分级行人Re-ID。在测试阶段，连接不同金字塔尺度的部分特征，形成每个图像的最终特征。

Horizontal Pyramid Matching

Backbone Network

HPM可采用各种网络架构，如VGG、Resnet和Google Inception作为ackbone网络。本文选择Resnet50作为backbone网络，并按照之前的最先进的技术[12]进行了一些修改。首先，移除平均池化层和全连接层。另外，conv4_1的步长设置为1。因此，提取的特征图的大小将是输入图像大小的 $\frac{1}{16}$ 。

Horizontal Pyramid Pooling (HPP) module

HPP受到Special Pyramid Pooling（SPP）[13]的启发，SPP是为了消除因图像输入尺寸不同而导致的特征向量长度不确定而提出的。本文的HPP模块与SPP的区别主要包括两个方面。1）动机。HPP的目的是通过学习来增强不同尺度下部分人物身体的判别信息，而SPP是为了解决图像特征向量长度不一致的问题。2）操作。由于人的区分分区的分布是从头到脚，HPP以水平方式将特征图切成多个条带，这与SPP采用二维空间的方式不同。通过HPP，可以在不同的水平金字塔尺度上获得固定长度的人物部分的向量。这些向量被进一步送入一个卷积层和一个全连接层以学习分类。通过这种方式，可以从全局到局部，从粗到细地捕捉到行人部分的判别能力。

公式上，将backbone网络提取的特征图表示为 $F$ 。在HPP模块中采用了4个金字塔尺度，并根据不同的尺度将F水平平均分割成几个空间bin。具体来说，假设每个空间bin为 $F_{i, j}$ 。 $i, j$ 代表尺度索引和每个尺度下的bin索引。例如， $F_{3,4}$ 表示第三个池化尺度中的第四个bin。然后，通过全局平均池化和最大池化池化每个空间bin $F_{i, j}$ 以生成列特征向量 $G_{i, j}$ 。
$G_{i, j}=\operatorname{avgpool}\left(F_{i, j}\right)+\operatorname{maxpool}\left(F_{i, j}\right)$
之后，每个 $G_{i, j}$ 被送入一个卷积层以将维度从 2048 减少到 256，表示为 $H_{i, j}$ 。这些具有相同 $\mathrm{i}$ 的 $H_{i, j}$ 可以被认为是对人的描述。随着金字塔尺度的增加，这种描述涵盖了更详细的部分特征。

Loss Function

利用基于分类的模型来处理行人重识别任务。因此，目标是预测每个人的 ID，然后可以通过优化的分类模型学习每人特定的特征表示。使用全连接层的一个分支作为分类器，每个特征列向量 $H_{i, j}$ 被送入相应的分类器 $F C_{i, j}$ 并使用 softmax 函数来预测其 ID。在训练期间，给定图像 $I$ 的输出是一组预测值 $\hat{y}_{i, j}$ 。每个 $\hat{y}_{i, j}$ 可以表示为
$\hat{y}_{i, j}=\underset{c \in P}{\operatorname{argmax}} \frac{\exp \left(\left(W_{i, j}^{c}\right)^{T} H_{i, j}(I)\right)}{\sum_{p=1}^{P} \exp \left(\left(W_{i, j}^{p}\right)^{T} H_{i, j}(I)\right)}$
其中 $\mathrm{P}$ 是行人 ID 的总数， $W_{i, j}$ 是 $F C_{i, j}$ 的学习权重， $y$ 是输入图像 $I$ 的ground truth。损失函数是每个输出 $\hat{y}_{i, j}$ 的交叉熵损失之和。
$\text { Loss }=\sum_{n=1}^{N} \sum_{i, j} C E\left(\hat{y}_{i, j}^{n}, y^{n}\right)$
其中 $\mathrm{N}$ 是 mini-batch 的大小， $\mathrm{CE}$ 是交叉熵损失。

Variant of HPM（HPM的变体）

HPM 可能有一些不同于上述基本框架的变体，例如不同的金字塔尺度和池化策略。

Number of pyramid scales

HPM 可以有几种不同数量的尺度。除了4个尺度，它可以是最大为 $log _{2}(h)$ 的任何数字，其中 $h$ 是特征图的高度。不同金字塔尺度的HPM结构如表1所示。随着金字塔尺度的增加，模型关注给定人的更详细和精细的划分。由于本文的损失函数是每个金字塔尺度的线性组合，如果金字塔尺度过多，可能会低估人的全局信息。另一方面，如果金字塔尺度太少，局部判别分区的特征可能难以提取。因此，选择能够平衡全局和局部特征的适当金字塔尺度对于 HPM 的性能至关重要。

Pooling strategies

HPM 同时使用平均池化和最大池化。全局平均池化是许多分类框架中的传统操作，因为它强制特征图和类别之间的对应关系。但是，全局平均池化可能会通过平均操作丢失一些非常具有判别性的信息。例如，如果人的一个分区判别力很强，但被背景包围，这种情况下，全局平均池化会得到判别部分和背景区域的平均值，这可能会导致响应低而错过它。为了解决这个问题，作者同时使用平均池化和最大池化，这样可以保持识别的全局关系，并保留判别部分。

参考文献

[1] Dong Yi et al. “Deep Metric Learning for Person Re-identification” International Conference on Pattern Recognition (2014).

[2] Ejaz Ahmed et al. “An improved deep learning architecture for person re-identification” Computer Vision and Pattern Recognition (2015).

[3] Alexander Hermans et al. “In Defense of the Triplet Loss for Person Re-Identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.

[4] Tong Xiao et al. “Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification” Computer Vision and Pattern Recognition (2016).

[5] Zhedong Zheng et al. “A Discriminatively Learned CNN Embedding for Person Reidentification” ACM Transactions on Multimedia Computing, Communications, and Applications 14 (2017): 13.

[6] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).

[7] Liang Zheng et al. “Pose Invariant Embedding for Deep Person Re-identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.

[8] Hantao Yao et al. “Deep Representation Learning with Part Loss for Person Re-Identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.

[9] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).

[10] Kaiming He et al. “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition” European Conference on Computer Vision (2014).

[11] Hengshuang Zhao et al. “Pyramid Scene Parsing Network” Computer Vision and Pattern Recognition (2017).

[12] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).

[13] Kaiming He et al. “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition” European Conference on Computer Vision (2014).

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

（AAAI-2019）用于行人重识别的水平金字塔匹配

相关文章