锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

(TNNLS-2022)步态质量感知网络:面向轮廓步态识别的可解释性

时间:2023-01-26 21:00:00 5挤压单连接器q24j4pj连接器

步态质量感知网络:轮廓步态识别的可解释性

paper题目:Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition

paper北京师范大学出版TNNLS 2022的工作

paper链接:地址

Abstract

由于步态识别可以到人们的关注,因为步态识别可以在远距离非侵入性应用于换衣服。现有的方法大多以步态序列的轮廓为输入,从多个轮廓中学习统一的表达和匹配probe和gallery。然而,这些模型都面临着缺乏可解释性的问题,例如,识别步态序列中的轮廓和身体的哪个部位更重要。在这项工作中,我们提出了一个步态质量感知网络,用于步态识别(GQAN),网络通过两个block明确评价每个轮廓和部分的质量:帧质量块(FQBlock)部分质量块(PQBlock)。具体而言,FQBlock重新校准每个轮廓的特征,并将所有通道的分数添加到帧质量指示器中。PQBlock用来计算每个部分的分数probe和gallery加权距离。特别是,我们提出了部分质量损失(PQLoss),它使GQAN只需注释序列级标识即可以端到端训练。这项工作对基于轮廓的步态识别的可解释性具有重要意义,我们的方法是CASIA-B和OUMVLP也取得了很有竞争力的性能。

关键词:帧质量、步态质量感知网络(GQAN),基于轮廓的步态识别部分质量。

I. INTRODUCTION

作为一种独特的生物特征识别技术,人类步态越来越受到关注,因为它可以通过非侵入性的方式远距离获得。步态识别的目的是根据行走模式识别人的身份。现有的步态识别方法大致可以分为模型和外观。基于模型的方法[5]–[7]试图从视频中提取人体结构,其优点是对服装和携带条件有鲁棒性。然而,在低分辨率条件下,很难准确估计身体参数,这对基于模型的方法有很大的不利影响。相比之下,基于外观的方法[8]–[10]在没有明确建模人体结构的情况下,试图从视频中学习步态特征。轮廓简单有效,通常作为基于外观的输入。

在以前的文献中,基于轮廓的方法 [11]-[13] 具有最先进的步态识别性能;然而,所有这些方法都面临着缺乏可解释性的关键挑战。例如,步态序列中的轮廓和人体的哪一部分对最终识别更为重要。图 1 经常发生:1)不同受试者的两个序列被赋予高相似性分数;2)同一受试者的两个序列被赋予低相似性分数。由于缺乏可解释性,很难分析这些案例的原因。

图1

图 1. 基于轮廓的步态识别的困难案例说明。 (a) 和 (b) 同一受试者相似度较低。 (b) 和 ? 不同分数相似度高的受试者。由于缺乏可解释性,很难分析这些案例的原因。 (a) ID = 112。(b) ID = 112。? ID = 123。

在这项工作中,我们专注于基于轮廓的步态识别的可解释性。可解释性是一个可以从许多不同方面解决的广泛话题。据我们所知,大多数在深度学习背景下处理可解释性的工作都试图分析每个神经元的作用 [14]、[15] 并发现输入中的判别区域 [16]。不同的是,在这项工作中,我们试图找出基于轮廓的步态识别的每个轮廓和每个部分的相对重要性。为此,我们提出了一个步态质量感知网络(表示为 GQAN),它通过两个块(即帧质量块)(FQBlock)部分质量块(PQBlock))对每个轮廓和部分的质量进行清晰的评价。

具体来说,步态序列中的轮廓是相互补充的,包括受试者的行走模式。由于屏蔽、几何失真、分割错误等,每个轮廓的质量不能保证[17]和[18],这可能会损害从轮廓中学习的特征。在 GQAN 步态序列的轮廓被视为无序集合。 FQBlock 提出将每个轮廓的帧质量结合起来进行基于集合特征的学习,可以学习更多的判断特征,增强可解释性。具体来说,FQBlock 压缩和刺激 [19] 重新校准每个轮廓的特征,并将所有通道的分数添加到相应轮廓的帧质量指标中。

此外,通过水平切片的特性,学习部分已广泛应用于步态识别[10]-[13]。然而,在计算两个步态序列之间的距离时,所有部分都被平等对待,这对步态识别不是最好的。例如,在更换外套或夹克时,头部和腿部的特征通常比上半身更重要probe和gallery。 PQBlock 通过学习每个部分的自适应权重来解决这个问题。它操作集合级的表示,并预测每个部分的分数,以计算probe和gallery之间的加权距离。特别是,我们提出了部分质量损失(PQLoss)只使用序列级身份注释来训练损失函数 PQBlock。

总之,这项工作的主要贡献在三个方面。

  1. 通过对每个轮廓和每个部分质量的明确评价,我们提出了基于轮廓步态识别的可解释性 GQAN。 GQAN轮廓和部分可以根据相对重要性自动排序。
  2. 我们提出了一个 PQLoss,它使 GQAN 只有序列级的身份注释才能以端到端的方式进行训练。
  3. GQAN 在所有步行条件下 CASIA-B 和 OUMVLP 上取得了非常有竞争力的表现。

II. RELATED WORK

A. Gait Recognition


步态识别方法大致可分为两类:基于模型和外观的,本节将简要回顾。

尝试从视频中显式提取人体结构,以基于模型的方法进行步态识别。例如,PoseGait [6] 将 RGB 帧估计的 3-D 作为步态识别的输入。 OUMVLPPose [5] 构建了一个基于姿态的大规模步态数据集,并评估了步态识别的不同姿态估计方法。 End2EndGait [7] 首先是拟合 SMPL [20] 提取姿势和形状特征,然后输入识别网络。理论上,这些方法对服装和携带条件都很稳定;然而,它们难以适应低分辨率条件,难以准确估计人体参数。

试图从视频中学习基于外观的步态特征,而视频中学习步态特征。在大多数情况下,剪影作为输入可以适应低分辨率和换衣服。基于剪影的方法可以进一步分为基于模板、视频和集合三类。基于模板的方法 [3] 将步态序列的轮廓集成到模板中,如步态能量图像 (GEI) 这很简单,但忽略了时间信息。基于视频的方法 [9],[25],[26] 将步态序列的轮廓视为提取空间和时间信息的视频,模型(例如 3-D 卷积神经网络(CNN) [25] 多时间尺度 3-D (MT3D) [9]) 训练相对困难。基于集合的方法[10]-[13]将每个步态序列的轮廓视为一个无序集,它还编码了一些基于轮廓的时间信息[10]。此外,还有一些工作将其他类型的输入用于基于外观的步态识别,如 GaitNet [27](RGB 帧)、GaitMotion [28](光流)和 SM-Prod [29](灰色图像和光流)。

我们的工作是基于外观的方法,将每个步态序列的轮廓输入并视为无序集合。通过对每个轮廓和每个部分的相对重要性的明确评估,我们可以实现基于轮廓的步态识别的可解释性。

B. Unordered Set


无序集首先由 PointNet [30] 用于引入视觉社区 3-D 分类和分割,然后用于许多其他视觉任务 [10],[31]-[33]。 GaitSet [10] 首先,建议将步态序列的轮廓视为无序集,现在广泛应用于基于轮廓的步态识别。 GQAN 步态序列的轮廓也被视为质量评估的无序集。

与我们的工作更相关的是 [31] 和 [32]他们根据图像质量学习自适应权重,用于基于集合的行人重量识别 [31] 和人脸识别 [32]。在 GQAN 中,提出了 FQBlock 在三个方面,它不同于评估每个轮廓的帧质量 [31] 和 [32]。首先,我们根据帧质量以不同的方式获得集合级表示,细节将在第一位 III-A 节中描述。其次,FQBlock 对不同 bin 通过水平切片每个轮廓的特征,具有独立权重的特征。第三,我们进一步提出了一个 PQBlock 对每个部分的质量进行步态识别。

III. OUR APPROACH

在这项工作中,我们提出了基于轮廓的步态识别的可解释性 GQAN。网络结构如图所示 2 所示。它主要由两个块组成,即 FQBlock 和 PQBlock,清楚地评估每个轮廓和每个部分的识别质量。具体来说,FQBlock 重新校准每个轮廓的特征,并将所有通道的分数添加到帧质量指标中。 PQBlock 为了计算自适应权重,预测每个部分的分数probe和gallery距离。接下来,我们将首先介绍它 FQBlock 组成和工作机制。然后我们将描述它 PQBlock 以及如何使用其输出来计算结构probe和gallery距离。最后,将展示一个 PQLoss,它使 GQAN 训练只能使用序列级身份注释。

2. GQAN 示意图。编码器主要由卷积层组成,分别从每个轮廓中提取特征。 FQBlock 用于评估每个轮廓的质量,其中其权重在轮廓之间共享,但对于不同的 bin(由不同的颜色注释)是独立的。 PQBlock 对集合级零件表示进行操作并预测分数以分别评估每个零件。

A. Frame Quality


步态序列的轮廓包含受试者的行走模式,并且相互补充。但由于遮挡、几何变形、分割错误等多种因素,无法保证每个轮廓的质量,对步态特征学习产生不利影响。在 GQAN 中,提出了 FQBlock 来解决这个问题,其中每个轮廓的质量可以自动学习,尽管在训练中没有明确提供这种监督。

具体来说,FQBlock 以挤压缩和激发风格 [19] 工作,主要由两个完全连接的层组成,然后分别是整流线性单元 (ReLU) 和 sigmoid。首先采用全局平均池化(GAP)和全局最大池化(GMP)来压缩每个通道中的信息。然后采用两个全连接层进行激励,以自适应地重新校准每个轮廓的特征。特别是,考虑到从头到脚的轮廓形状差异很大,FQBlock 将每个轮廓的特征水平且均等地分割到多个 bin 中,并为不同的 bin 保持独立的权重。 FQBlock 的结构如图 3 所示,为了便于说明,轮廓级特征被水平分成四个 bin。

图3. FQBlock的图示。HSlice表示水平切片,GAP表示全局平均池,GMP表示全局最大池,FC表示全连接层,Re表示ReLU,Sig表示sigmoid。

公式上, G G G表示由 N N N个轮廓组成的步态序列, F = { F 1 , F 2 , … , F N } F=\left\{F_{1}, F_{2}, \ldots, F_{N}\right\} F={ F1,F2,,FN}表示从每个轮廓中提取的特征。 FQBlock 首先将每个轮廓的特征水平均等地分割成 S S S个 bin(例如,$S= 16 ) , 表 示 为 16),表示为 16F_{i j}(i \in[1,2, \ldots, N], j \in$ [ 1 , 2 , … , S ] ) [1,2, \ldots, S]) [1,2,,S])。然后, F i j F_{i j} Fij,即第 i i i个轮廓和第 j j j个 bin 的特征,处理如下:
X i j = GAP ⁡ ( F i j ) + GMP ⁡ ( F i j ) Y i j = σ ( W j 2 δ ( W j 1 X i j ) ) Z i j = X i j ⊗ Y i j \begin{aligned} X_{i j} &=\operatorname{GAP}\left(F_{i j}\right)+\operatorname{GMP}\left(F_{i j}\right) \\ Y_{i j} &=\sigma\left(W_{j}^{2} \delta\left(W_{j}^{1} X_{i j}\right)\right) \\ Z_{i j} &=X_{i j} \otimes Y_{i j} \end{aligned} XijYijZij=GAP(Fij)+GMP(Fij)=σ(Wj2δ(Wj1Xij))=XijYij
其中 GAP 和 GMP 是沿空间维度的挤压操作, W j 1 W_{j}^{1} Wj1 W j 2 W_{j}^{2} Wj2表示两个全连接层的激励权重, δ \delta δ表示 ReLU 函数, σ \sigma σ表示 sigmoid 函数, ⊗ \otimes 表示元素乘法。最后,得到第 j j j个 bin 的集合级表示如下:
P j = Set ⁡ Pool ⁡ ( Z 1 j , Z 2 j , … , Z N j ) ( 4 ) P_{j}=\operatorname{Set}\operatorname{Pool}\left(Z_{1 j}, Z_{2 j}, \ldots, Z_{N j}\right)\quad(4) Pj=SetPool(Z1j,Z2j,,ZNj)(4)
其中 SetPool 表示集合池化以聚合无序集合 [30] 中的特征,并通过沿集合维度的最大池化来实现。特别是,我们使用 Y i j Y_{i j} Yij重新校准特征并沿通道维度添加 Y i j Y_{i j} Yij作为第 i i i个轮廓和第 j j j个区域的帧质量指标。

值得注意的是,squeeze-and-excitation 风格最早是在squeeze-and-excitation network (SENet) [19] 中提出的,FQBlock 在三个方面与其不同。首先,SENet 被提出用于单张图像分类,而 FQBlock 被提出来评估无序集中的帧质量,并将 FQBlock 的中间输出作为每个剪影的帧质量指标。其次,FQBlock 采用 GAP 和 GMP 来压缩每个通道中的信息。第三,FQBlock 对不同 bin 的特征持有独立的权重,以处理轮廓中较大的形状变化。此外,注意力机制广泛应用于动作识别领域[34]-[36]。具体来说,[34] 和 [35] 中的方法使用循环模型来发现连续帧中的代表区域,而 FQBlock 主要由两个全连接层组成,并处理无序集。自注意力网络 (SAN) [36] 使用自注意力机制 [37] 来捕获不同帧之间的位置和运动的相关性,而 FQBlock 处理每个轮廓的质量,随后的 PQBlock 处理每个轮廓的质量步态序列的一部分。值得注意的是,提出的质量模块不同于流行的自注意力机制[37]。例如,对于自注意力机制至关重要的查询、键和值的向量不包含在我们的方法中。

B. Part Quality


对特征进行水平等分切片以获得部分表示已被广泛用于步态识别[10]-[12]。为了保持符号的一致性,我们使用 P ^ j ( j ∈ [ 1 , 2 , … , S ] ) \widehat{P}_{j}(j \in[1,2, \ldots, S]) P j(j[1,2,,S])来表示从步态序列 G G G中提取的集合级第 j j j部分表示,它是通过应用 1 × 1 1 \times 1 1×1卷积获得的 P j P_{j} Pj由(4) 输出。然后,两个步态序列(表示为 G 1 G_{1} G1 G 2 G_{2} G2)的距离计算为
D e q ( G 1 , G 2 ) = 1 S ∑ j = 1 S D ( P ^ j G 1 , P ^ j G 2 ) ( 5 ) D_{\mathrm{eq}}\left(G_{1}, G_{2}\right)=\frac{1}{S} \sum_{j=1}^{S} D\left(\widehat{P}_{j}^{G_{1}}, \widehat{P}_{j}^{G_{2}}\right)\quad(5) Deq(G1,G2)=S1j=1SD(P jG1,P jG2)(5)
其中 S S S是部分的数量, D ( ) D() D()测量两个部分表示的距离,例如,欧几里德距离。所有部分都被平等对待,这对于步态识别不是最佳的。例如,在更换外套或夹克的情况下,与上半身相比,头部和腿部应分配更大的重量。在 GQAN 中,提出了 PQBlock 来学习每个部分的自适应权重以匹配步态序列。

PQBlock 的结构简单而有效,它由一个全连接层和一个 Sigmoid 函数组成。它对集合级别的部分表示进行操作,并预测一个分数以评估每个部分的相对重要性。全连接层的权重对于不同的部分是独立的。公式上,对于第 j j j部分,将 (4) 中的 P j P_{j} Pj作为输入,输出得分 q j q_{j} qj计算为
q j = σ ( M j P j ) q_{j}=\sigma\left(M_{j} P_{j}\right) q

相关文章