锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

人体姿态估计综述 2020最全

时间:2022-10-11 06:30:00 旋转电位器r097grf系列线性位移传感器206电位器

Deep Learning-Based Human Pose Estimation:A Survey

摘要

应用:人机交互、运动分析、增强现实和虚拟现实。

现状:最近基于深度学习的发展方法在人体姿势估计方面取得了较高的表现,但由于缺乏训练数据、深度模糊等问题,仍存在挑战。

目的:通过对基于深度学习的二维和三维位置估计方法的系统分析和比较,根据其输入数据和推理过程,综合总结基于深度学习的二维和三维位置估计方法。

引言

在HPE深度学习技术在任务中的应用取得了显著的进展和效果。然而,2.DHPE它可以很容易地从带带2D在姿势标记的图像和视频中获得,估计单个姿势已经达到了很高的性能,获得了准确的3D姿势标记比2D相应的要困难得多。深度传感器、惯性测量单元等一些工作已经使用(IMU)传感器,如射频设备,通常不划算,需要特殊硬件。

1.1 以前的调查和我们的贡献

2001-2015年公布的这些调查主要集中在常规方法上,没有深入学习。

后期文献要么只涵盖少数深度学习方法,要么不够全面。

本次调查旨在解决以往调查的不足,不仅系统地回顾了最近基于深度学习的2D和3DHPE解决方案也涵盖了HPE其他方面包括(2)D和3D)HPE流行数据集中方法的性能评估、应用及综合讨论。

1.2 组织

img

HPE分为两类:2DHPE和3D HPE

§3.1:基于深度学习的单一方法有两种:

(1)回归方法,通过基于深度学习的回归,直接建立输入图像到人体关节坐标的映射;

(2)身体部位检测方法包括两个步骤:第一步是生成身体部位定位的关键点(即关节)热图,第二步是将检测到的关键点组装成整个身体的姿势或骨架。

§3.2:基于深度学习的多人方法有两种方法:

(1)自上而下的方法,先检测人,再使用单人HPE预测每个人构建人体姿势的关键点;

(2)自下而上的方法,先检测身体关键点,然后将关键点组合成单独的姿势,不知道人数。

2 人体建模

人体建模是HPE用来表示从输入数据中提取的关键点和特征的一个重要方面。例如,大多数HPE该方法采用N关节刚性运动学模型。人体是一种复杂的关节和肢体实体,包括运动结构和体型信息。在典型的方法中,基于模型的方法描述和推断人体姿势,并绘制2D和3D姿势。通常有三种模型,即运动学模型(用于2)D/3D HPE)、平面模型(用于2D HPE)体积模型(用于3D HPE),如图2所示。

2.1 运动学模型

运动模型,又称基于骨架的模型或运动链模型,如图2所示(A)包括一组关节位置和肢体方向来表示人体结构。这种灵活直观的人体模型是2DHPE[16][17]和3D HPE[18][19]已成功应用。运动模型虽然具有图形表示灵活的优点,但在表示纹理和形状信息方面存在局限性。

2.2 平面模型

平面模型也被用来表示人体的形状和外观,如图2所示(B)所示。在平面模型中,人体部位通常用近似人体轮廓的矩形表示。

2.3 体积模型

3.基于深度学习D HPE常用的方法3D恢复人体模型3D人体网格的方法。

SMPL:蒙皮多人线性模型是一个基于蒙皮顶点的模型,它代表了广泛的人体形状。SMPL软组织动力学的自然姿势相关变形可以模拟。在SMPL1786高分辨率3D扫描对象使用模板网格优化混合重量[26]、与姿势相关的混合变形、平均模板形状以及从顶部到关节位置的回归。SMPL易于部署,与现有渲染引擎兼容,所以在3DHPE该方法被广泛使用。

动态人体运动模型试图表达不同身体形状的真实软组织运动。与运动相关的软组织变形与低维线性子空间相似。为了预测软组织运动的低维线性系数,使用全身的速度和加速度、身体各个部位的角度和加速度以及软组织的形状系数。Dyna利用身体质量指数(BMI)不同体型的人会有不同的变形。

缝合木偶模型是基于零件的图形模型,集成了逼真的身体模型。不同的三维形状和与姿势相关的形状变化可以转化为相应的图形节点,身体的每个部位都由其自身的低维状态空间表示。身体的各个部分通过图中节点之间的成对电位连接在一起,从而缝合各个部分。通常,通过势函数的部分连接是通过使用置信传播的(BP)执行新闻传递算法等。为了解决各部分状态空间不易离散的问题,采用了基于粒子的方法D-PMP模型的最大乘积BP算法。

弗兰肯斯坦和亚当:弗兰肯斯坦模型不仅产生人体运动参数,还产生面部表情和手势参数。该模型由混合各组件网格的模型生成:身体SMPL、面部的Face Warehouse[31]手部艺术家。为了表达身份和运动变化,所有变换的骨骼都合并到单个骨骼层次,每个组件的本地参数化保持不变。亚当模型是由弗兰肯斯坦模型优化的。亚当更适合在现实世界中表达人类,因为它能表达舒曼的头发和服装几何图形。

Ghum&GHUML(ITE):在[32]中,提出了一种完全可训练的端到端深度学习管道来建模静态和关节3D人体形状和姿势,GHUM是中分辨率版,GHUML是低分辨率版本。GHUM和GHUML通过扫描自动编码器框架中的高分辨率(其数据集中在6万多种不同的人类配置上)进行训练。它们可以推断出一系列组件,如非线性形状空间、姿势空间变形校正器、骨架关节中心估计器和混合蒙皮功能。

3 估计二维人体姿势

二维HPE从图像或视频中估计人体关键点的二维位置或空间位置。传统的二维HPE该方法采用不同的手工提取技术[33][34],将人体描述为一个棒状图形,以获得整体结构。近年来,基于深度学习的方法HPE该领域取得了重大突破,显著提高HPE的性能。本文从单人和多人两种情况出发,基于深度学习的二维HPE综述了方法。

3.1 估计二维单人姿势

输入单人图像时,使用二维单人姿势估计来定位人体关节的位置。如果有多个人,首先切割输入图像,使每个切割块(或子图像)中只有一个人。该过程可通过上半身探测器或全身探测器自动实现。

一般来说,采用深度学习技术的单管有两种:回归法和身体部位检测法。回归方法应用于端到端框架,以学习从输入到身体关节或人体模型参数的映射。身体部位检测方法的目标是预测身体部位和关节的一般位置[][38],通常由热图表示法监督。基于热图的框架现在被广泛应用于2D HPE任务。

(A)从原始图像到运动学身体模型的映射,直接学习回归方法,产生关节坐标。

(B)利用热图的监督来预测身体关节的位置。

3.1.1 回归方法

从图像中预测关节坐标有许多基于回归框架的工作。AlexNet[1]作为骨干,DeepPose: Human Pose Estimation via Deep Neural Networks中Toshev和Szegedy从图像中学习关键点的级联深度神经网络回归算法DeepPose。

由于DeepPose性能令人印象深刻,HPE的研究范式开始从经典方法转向深度学习,特别是卷积神经网络(CNNs)。

基于GoogLeNet,Carreira[42]提出迭代误差反馈(IEF)该网络是一种自校正模型,通过将预测误差注入输入空间,逐自校正模型。

Sun等人。介绍了一种基于。ResNet-50结构感知回归方法–组合姿态回归采用基于骨骼的重新参数表达方法,而不是基于关节的传统表达方法。

Luvizon等人提出了一种用于等人的方法HPE该方法采用软到端回归法soft-argmax函数将特征图转换为全微框架下的关节坐标是一种很好的方法RICE编码特征。

对于基于回归的方法,编码丰富的姿势信息的良好特征非常重要。学习更好元素的流行策略之一是多任务学习。该模型可以更好地泛化原始任务(位置估计)。

李等人沿着这个方向提出了自己的观点。[46]提出了一个由两个任务组成的异构多任务框架:通过建立从整个图像中预测关节坐标的回归模型;使用滑动窗口从图像中检测身体部位。Fan等人的研究成果。[47]提出了一种双源深度卷积神经网络(DS-CNN),用于判断补片中是否含有人体关节,确定补片中关节的准确位置,并提出双源深度卷积神经网络(DS-CNN)。每个任务对应一个损失函数,两个任务的组合会带来更好的结果。Luvizon等人。[48]学习了联合处理视频序列中的2个多任务网络D/3D姿势估计和动作识别。

3.1.2 身体部位检测方法

​ HPE人体部位检测方法的目的是训练人体部位检测器来预测人体关节的位置。最近的检测方法撞击提出了一个热图预测问题。具体地说,目标是估计总共K个关键点的Kheatmap{H1,H2,.,HK}。每个关键点热图中的像素值Hi(x,y)表示关键点位于位置(x,y)的概率(参见图。3(B))。目标(或地面真实)热图由以地面真实联合位置[39][53]为中心的二维高斯生成。因此,通过最小化预测热图和目标热图之间的差异(例如,均方误差(MSE))来训练姿态估计网络。与联合坐标相比,热图保留了空间分布信息,为卷积网络的训练提供了更好的监督信息。因此,最近人们对利用热图来表示联合位置和开发用于HPE的有效的CNN架构越来越感兴趣。

Tompson et al.[53]将基于CNN的人体部位检测器与基于部位的空间模型相结合的二维HPE的学习框架。

Lifshitz等人。[55]提出了一种基于CNN的关节位置预测方法,该方法结合关键点投票和联合概率确定人体姿态表征。

魏等人[40]介绍了一种基于卷积网络的序列框架,称为卷积姿势机器(CPM),它通过多阶段处理来预测关键关节的位置(每个阶段的卷积网络利用前几个阶段产生的2D信任图,产生对身体部位位置的日益精确的预测)。

Newell et al.[38]提出了一种名为“堆叠沙漏”的编解码器网络(该网络中的编码器通过瓶颈挤压特征,然后由解码器对其进行扩展),在中间监督下重复自下而上和自上而下的过程。堆叠沙漏(SHG)网络由汇集和增加采样层的连续步骤组成,以捕获每个尺度的信息。从那时起,为HPE开发了SHG体系结构的复杂变体。

Chu等人。[65]设计了一种新颖的Hourglas残差单元(HRU),它利用具有更大感受场的滤波器的侧枝来扩展残差单元,以捕获不同尺度的特征。

Yang等人。[59]设计了多分支金字塔残差模块(PRM)来代替SHG中的残差单元,增强了深层CNN的尺度不变性。

​ 随着生成性对抗性网络(GANS)[66]的出现,人们在HPE中对它们进行探索,以生成生物逻辑上合理的姿势配置,并区分高置信度和低置信度的预测,这可以推断出被遮挡身体部位的潜在姿势。

Chen等人。[67]构建了一个结构感知的条件对抗网络AdversarialPoseNet,该网络包含一个基于沙漏网络的位置生成器和两个用于区分合理和不合理体姿的鉴别器。

周埃塔尔。[68]构建了一个对抗性学习网络,两个堆叠的沙漏网络分别作为鉴别器和生成器,具有相同的结构。生成器评估每个节理的位置,判别器区分地面真实热图和预测热图。

与基于Gans的方法以HPE网络为生成器,利用鉴别器提供监督不同,Peng等人提出了一种基于Gans的方法。[69]将HPE网络作为鉴别器,利用增强网络作为生成器进行对抗性增强,开发了对抗性数据增强网络,以优化数据增强和网络训练。

除了为HPE进行有效的网络设计所做的这些努力外,还对HPE的身体结构信息进行了研究,为HPE网络的建设提供更多和更好的监督信息。

Yang等人。[70]设计了一种面向HPE的端到端CNN框架,该框架通过考虑人体各部分之间的空间和外观一致性,能够找到硬性否定。

文献[71]提出了一种结构化的特征级学习框架,用于推理HPE中人体关节之间的关系,该框架更丰富了人体关节的信息,提高了学习效果。

Ke等人。[72]设计了一种多尺度结构感知神经网络,该网络结合了多尺度监督、多尺度特征组合、结构感知丢失信息方案和关键点掩蔽训练方法改进复杂场景下的HPE模型。

Tanget al.[73]构建了一个基于沙漏的监督网络,称为深度学习的组成模型,用于描述人体各部位之间复杂而真实的关系,学习人体各部位的组成模式信息(人体各部位的方位、比例和形状信息)。

唐和吴[74]指出并不是所有的零件都是相互关联的,因此引入了一个基于零件的分支网络来学习特定于每个零件组的表示,而不是所有零件的共享表示。

​ 视频序列中的人体姿势是(3D)时空信号。因此,对视频中的时空信息进行建模对于视频的HPE来说是非常重要的。

Jain等人[75]设计了一个包含两个分支的CNN框架,将颜色和运动特征合并到帧对中,以在HPE中建立一个富有表现力的时空模型。

菲斯特·埃塔尔。[76]提出了一种卷积网络,该网络能够利用来自多个帧的时间上下文信息,利用光流来对齐来自相邻帧的预测热图。

与以往基于视频的方法计算量大不同,Luoo et al.[60]提出了一种长短期记忆(LSTM)的递归HPE结构[77],以捕捉不同帧的时间几何一致性和依赖性,提高了视频HPE网络的训练速度。

张等人。[78]介绍了一个用于从帧中获取空间和时间信息的关键帧提议网络和一个用于高效的基于视频的位姿估计的人体姿势插值模块。

3.2 二维多人姿态估计

​ 与单人HPE相比,多人HPE的难度和挑战性更大,因为它需要计算出人数和他们的位置,以及如何针对不同的人对关键点进行分组。为了解决这些问题,多人HPE方法可以分为自上而下方法和自下而上方法。自上而下的方法使用现成的人物检测器从输入图像中获得一组框(每个框对应一个人),然后将单人姿态估计器应用于每个人物框以生成多人姿势。与自上而下的方法不同的是,自下而上的方法首先在一幅图像中定位所有的身体关节,然后将它们分组到相应的对象。在自上而下的流水线中,输入图像的人数将直接影响计算时间。自下而上方法的计算速度通常比自上而下方法快,因为它们不需要单独检测每个人的姿势。图4示出了二维多人HPE方法的一般框架。

图4:多人2D HPE框架图。(A)自上而下的方法有两个子任务:(1)人体检测和(2)单人区域的姿势估计;

(B)自下而上的方法也有两个子任务:(1)检测身体部位的所有关键点候选;(2)将不同人体中的身体部位关联起来,并将它们组装成单独的姿势表示。

3.2.1 自上而下的管道

​ 自上而下的流水线中,有两个重要部分:用于获得人物包围盒的人体检测器和用于预测这些包围盒内关键点位置的单人姿势估计器

工作重点是设计和改进HPE网络中的模块。肖等人,[62]在ResNet中添加了几个解卷积层(骨干网)建立一个简单而有效的结构,以生成用于高分辨率表示的热图。

Sunet等人。[81]提出了一种新的高分辨率网络(HRNet),通过并行连接多分辨率子网并进行重复的多尺度融合来获得可靠的高分辨率表示。

为了提高关键点定位的精度,Wang等人提出了一种新的关键点定位方法。[84]介绍了一个基于两阶段图和模型无关的框架,称为Graph-PCNN。它由定位子网和图姿态精化模块组成,定位子网用于获取粗略的关键点位置,图姿态精化模块用于获得精化的关键点定位表示。

为了获得更精确的关键点定位,蔡等人对此进行了研究。[86]引入残差步长网络(RSN)模块和PoseRefineMachine(PRM)模块,通过有效的层内特征融合策略学习精细的局部表示,并引入PoseRefineMachine(PRM)模块在局部表示和全局表示之间寻找折衷。

估计遮挡和截断场景下的姿势经常发生在多人环境中,因为肢体重叠是不可避免的。人体检测器可能会由于遮挡或截断而在自上而下管道的第一步中失败。因此,对遮挡或截断的鲁棒性是多人HPE方法的一个重要方面。

为此,Iqbal和Gall[88]建立了一个基于机器的卷积位姿估计器来估计联合候选位姿。然后利用整数线性规划(ILP)来解决关节与人的关联问题,即使在严重遮挡的情况下也能得到人体姿势。

***为了提高HPE在复杂场景中的性能,方等[89]设计了一种新的区域多人姿态估计(RMPE)方法。***具体地说,RMPE框架包括三个部分:对称空间变换网络(用于检测不精确包围盒内的单人区域)、参数非最大值抑制(用于解决冗余检测问题)和姿态制导建议生成器(用于扩充训练数据)。

帕潘德里欧等人。[79]建议的两阶段结构,包括一个更快的R-CNN个人探测器,用于为候选人体创建边界框,以及一个关键点估计器,用于预测位置通过使用一种热图偏移聚合的形式对关键点进行聚合。

整体方法在遮挡和杂乱的场景中运行良好。为了缓解HPE中的遮挡问题。

Chen等人提出了一种新的解决方案。[90]提出了一个级联金字塔网络(CPN),它包括两个部分:GlobalNet(预测眼睛、手等不可见关键点的特征金字塔网络)和RefineNet(集成了GlobalNet的所有层次特征和关键点挖掘损失的网络)。结果表明,CPN在预测关键点方面具有较好的性能。

Su等人。[91]设计了通道洗牌模块和基于空间和通道的注意残留瓶颈模块,实现了通道方向和空间信息的增强,更好地实现了遮挡场景下的多人位置估计。

邱等人。[92]针对人群位姿估计中的遮挡问题,开发了遮挡位姿估计与校正(OPEC-NET)模块和遮挡位姿数据集。

Umer等人。[93]提出了一种关键点对应框架,利用前一帧包含场景的时间信息恢复遗漏位置。该网络使用自监督来训练,以改善稀疏标注视频数据集中的姿态估计结果。

3.2.2 自下而上管道

​ 如图4(B)所示,自下而上的管线(例如,[94][95][96][17][97][98][99][100][101][102][103])具有两个主要步骤,包括人体关节检测(即,提取局部特征并预测人体关节候选)和针对单个身体的关节候选组合(即,将关节候选分组以建立具有部分关联策略的最终姿势表示)。

Pishchlin等人。[94]提出了一种基于快速R-CNN的人体部位检测器DeepCut,这是最早的两步自下而上方法之一。该算法首先检测所有的候选身体部位,然后对每个部位进行标记,然后用整数线性规划(ILP)将这些部位组装成最终的位置,但是深度切割模型的计算量较大。

为此,Insafutdinov等人提出了。[95]引入了Deeper Cut,通过应用更强大的身体部位检测器和更好的增量优化策略以及图像条件成对项来对身体部位进行分组,从而改进了DeepCut,从而提高了性能和速度。

后来,曹等人。[17]构建了一个名为OpenPose的检测器,该检测器使用卷积位姿机器40通过热图和部分亲和场(PAF)预测关键点坐标,从而将关键点与每个人关联起来。PAF是一组二维矢量场,带有编码肢体位置和方向的矢量地图。OpenPose极大地加快了自下而上的多人HPE的速度。

在OpenPose框架的基础上,朱等人提出了一种基于OpenPose框架的。[104]改进了OpenPose结构,通过增加冗余边来增加PAF中节点之间的连接,获得了比基线方法更好的性能。

虽然基于OpenPose的方法在高分辨率图像上取得了较好的压缩效果,但在低分辨率图像和遮挡情况下性能较差。为了解决这个问题,Kreiss等人。[100]提出了一种自下而上的方法PifPaf,该方法使用部件强度场(PIF)来预测身体部位的位置,使用部件关联场(PAF)来表示关节关联。在低分辨率和遮挡场景下,该方法优于以前基于OpenPose的方法。

由OpenPose激发[17]和堆叠式沙漏结构[38],Newell等人。[97]引入了一种单级深度网络来同时获得位姿检测和分组分配。

跟随[97],金等人。[102]提出了一种新的可微层次图分组(HGG)方法来学习人体部分分组。

在[97]和[81]的基础上,Cheng et al.[103]提出了一种HRNet的简单扩展–更高分辨率网络(Higher Resolution Network,Higher HRNet),它对HRNet生成的高分辨率热图进行去卷积处理,解决了自下而上多人位姿估计中尺度变化的难题。

自下而上的HPE方法也采用了多任务结构。帕潘德里欧等人。[105]介绍了PersonLabto将姿态估计模块和人物分割模块相结合进行关键点检测和关联。PersonLab由短程偏移(用于细化热图)、中程偏移(用于预测关键点)和长程偏移(用于将关键点分组为实例)组成。Kocabas等人。[106]提出了一种基于姿态残差网络的多任务学习模型MultiPoseNet,该模型可以同时完成关键点预测、人体检测和语义分割任务。

3.3 二维HPE摘要

​ 综上所述,随着深度学习技术的蓬勃发展,2D HPE的性能有了显著的提高。近年来,更深层次和更强大的网络已经提升了二维单人HPE(如DeepPose[36]和Stack HourglassNetwork[38])以及二维多人HPE(如AlphaPose[89]和OpenPose[17])的性能。

​ 虽然这些工作在不同的2D HPE场景中取得了足够好的性能,但仍然存在问题。回归和人体部位检测方法在二维单人HPE中各有优势和局限性。回归方法可以通过端到端的框架学习从输入图像到关键点坐标的非线性映射,这提供了快速的学习范例和亚像素级的预测精度。然而,由于高度非线性问题,它们通常给出次优解[44]。人体部位检测方法,特别是基于热图的框架,由于(1)热图中每个像素的概率预测可以提高关键点定位的精度;(2)热图保留了空间位置信息,提供了更丰富的监控信息,因此在二维HPE中得到了更广泛的应用。然而,预测关键点的精度取决于热图的分辨率。当使用高分辨率热图时,计算成本和内存占用显著增加。

​ 对于二维多人HPE的自上而下和自下而上两种管路,很难确定哪种方法更好,因为这两种方法在最近的工作中都得到了广泛的应用,各有优缺点。一方面,自上而下的流水线方法首先使用检测方法检测图像中的每个个体,然后使用基于单人的方法预测关键点的位置,从而获得更好的效果。在这种情况下,由于很大程度上去除了背景,每个检测到的人区域内的关键点热图估计都变得容易。另一方面,自下而上方法通常比自上而下方法更快,因为它们直接检测所有关键点并将其分组使用诸如亲和力链接[17]、关联嵌入[97]和按像素的关键点回归[107]的关键点关联策略转换成各个姿势。

面临的挑战

​ 二维HPE中存在一些挑战,需要在未来的研究中进一步解决。首先是在显著遮挡下(例如,在人群场景中)对个人的可靠检测。自上而下的二维HPE方法中的人检测器可能无法识别高度重叠的人体边界。同样,对于遮挡场景中的自下而上方法,关键点关联的困难更为明显。

​ 第二个挑战是计算效率。虽然像OpenPose[17]这样的一些方法可以在中等计算能力的特殊硬件上实现近实时处理(例如,在配备NVIDIA GTX 1080Ti GPU的机器上实现22FPS),但在资源受限的设备上实现网络仍然是困难的。现实世界中的应用(如在线教练、游戏、AR和VR)需要在商业设备上使用更高效的HPE方法,以便为用户带来更好的交互体验。

​ 另一个挑战在于罕见姿势的有限数据,虽然目前二维HPE的数据集已经足够大(例如COCO数据集[108])来估计正常姿势(例如站立、行走、奔跑),但是这些数据集对于特殊姿势(例如跌倒)的训练数据有限,数据不平衡可能会导致模型偏差,从而导致在这些姿势上表现不佳。开发有效的数据生成或增强技术来生成额外的姿态数据以训练更健壮的模型将是有用的。

4 三维人体姿态估计

​ 3DHPE以预测人体关节在三维空间中的位置为目标,能够提供与人体相关的丰富的三维结构信息,近年来引起了人们的极大兴趣。它可以应用于各种应用(例如,3D电影和动画产业、虚拟现实和在线3D动作预测)。虽然近年来二维HPE已经取得了很大的进步,但三维HPE仍然是一项具有挑战性的任务。现有的撞击3DHPE研究大多是从单目图像或视频出发的,这是一个不适定的逆问题,因为从3D投影到2D会丢失一维。当有多个视点可用或部署其他传感器(如IMU和LiDAR)时,利用信息融合技术,3DHPE可能是一个适定的问题。另一个限制是深度学习模型需要大量数据,并且对数据收集环境非常敏感。与2D人类数据集不同,在2D人类数据集中可以很容易地获得准确的2Dpose注释,而收集准确的3Dpose注释是耗时的,并且手动标记是不现实的。此外,数据集通常是从室内环境中选择的日常操作中收集的。最近的工作[109][110][111]已经通过交叉数据集推理验证了有偏数据集约束的模型泛化能力差的问题[112],在这一部分中,我们首先关注来自单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。在这一部分中,我们首先讨论基于单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。

4.1 来自单目RGB图像和视频的3D HPE

​ 单目摄像机是二维和三维场景中使用最广泛的HPE传感器。近几年来的研究进展基于深度学习的来自单目图像和视频的2D HPE使研究人员能够将他们的工作扩展到3D HPE。具体地说,基于深度学习的三维HPE方法分为两大类:单视图三维HPE和多视点3D HPE。

4.1.1 单视图3D HPE

​ 从单目图像和视频的单一视图重建三维人体姿势是一项非常重要的任务,它受到自遮挡和其他对象遮挡、深度模糊和训练数据不足的困扰。这是一个严重的不适定问题,因为不同的3D人体姿势可以投影到相似的2D姿势投影。此外,对于建立在2D关节上的方法,2D身体关节的微小定位误差可能会导致3D空间中的大姿势失真。与单人情况相比,多人情况更为复杂。因此,它们将在下面单独讨论。

A.单人三维HPE

​ 图5:单人3D HPE框架。

​ (A)直接估计法直接从二维图像中估计三维人体位置。(B)2D到3D提升方法利用预测的2D人体姿势(中间表示)来进行3D姿势估计。©基于模型的方法结合参数化的人体模型来恢复高质量的三维人体网格。由3Dpose和Shape网络推断出的3D姿态和形状参数被馈送到模型回归器以重建3D人体网格。部分数字来自[113]。

​ 根据是否使用人体模型(如第2节所列)来估计3D人体姿势,单人3D HPE方法可分为无模型方法和基于模型的方法。

​ 无模型方法。无模型方法不需要使用人体模型来重建三维人体表示。这些方法可进一步分为两类:(1)直接估计法和 (2)2D到3D提升法。

​ 直接估计:如图5(A)所示,直接估计方法从2D图像中推断3D人体姿势,而不中间估计2D姿势表示,例如,[114] [115] [116] [43] [117] [118] [119]。早期的深度学习方法之一是由Li和Chan[114]提出的。他们采用浅层网络训练滑动窗口和姿态坐标回归同步训练人体部位检测。Liet等人提出了一种随访方法。[115]其中图像-3D姿势对被用作网络输入。分数网络可以给正确的图像-3D姿势对分配高分,给其他姿势对分配低分,但是这些方法效率很低,因为它们需要多个前向网络推理。Sun等人[43]提出了一种结构感知回归方法。他们没有使用基于关节的表示法,而是采用了更稳定的基于骨骼的表示法。成分损失是通过利用3D骨骼结构和基于骨骼的表示来定义的,这种表示编码了骨骼之间的远程相互作用。 Tekin等人的研究成果。[116]通过学习3Dpose到高维潜在空间的映射,对关节之间的结构依赖性进行了编码。学习的高维姿势表示可以强制3D姿势的结构约束。Pavlakos等人。[117]引入体积表示法,将高度非线性的三维坐标回归问题转化为吸积空间中易于处理的形式。体积中每个关节的体素可能性由卷积网络预测。利用人体关节的正常深度关系,降低了对精确三维地面真实姿态的要求。

​ 2D到3D提升:由于最近2DHPE的成功,从中间估计的2D人体姿势推断3D人类姿势的2D到3D提升方法已经成为一种流行的3D HPE解决方案,如图5(B)所示。得益于最先进的2D姿势检测器的优异性能,2D到3D提升方法通常比直接估计方法性能更好。第一阶段采用现成的二维HPE模型估计二维位姿,第二阶段采用二维到三维提升的方法获得三维位姿。Chen和Ramanan[120]从库中对预测的2D姿势和3D姿势进行了最近邻匹配。但是,当3D姿势不是有条件地独立于给定2D姿势的图像时,3D HPE可能会失败。Martinez等人。[121]提出了一种简单有效的全连通残差网络,用于基于二维节点位置回归三维节点位置。尽管当时获得了最先进的结果,但由于过度依赖2Dpose探测器的重建模糊性,该方法可能会失败[118]。Tekin等人的研究成果[122]和周等人的观点[123]使用2D热图代替2D姿势作为估计3D姿势的中间演示。Moreno-Noguer[124]通过距离矩阵回归推导出三维人体姿势,其中2D和3D人体关节的距离被编码成两个欧几里德距离矩阵(EDM)。EDM对于面内图像的旋转和平移以及应用归一化操作时的缩放不变性都是不变的。Wang等人。[125]开发了一种两两排序的卷积神经网络(PRCNN)来预测两两人体关节的深度排序。然后,利用由粗到精的位姿估计器从2D关节和深度排序矩阵回归出3D位姿。Jahangiri和Yuille[126],Sharma等人。[127],Li和Lee[128]首先生成多个不同的3D姿势假设,然后应用排序网络选择最佳3D姿势。

​ 考虑到人体姿势可以表示为关节为节点、骨骼为边的图形,已经应用了图形卷积网络(GCNS)通过展示有希望的性能[129] [130] [131] [132] [133]来解决2D到3D姿势提升问题。Choi等人。[131]提出了一种基于GCN的Pose2Mesh方法,从PoseNet中提炼出中间三维姿态。使用GCN,网格网用从网格拓扑构建的图形来回归网格顶点的3D坐标。CI等人[129]提出了一个通用的框架,称为局部连接网络(LCN),它利用全连接网络和GCN来编码局部联合邻域之间的关系。LCN克服了GCN权值分担方案损害姿态估计模型表示能力的局限性,结构矩阵缺乏灵活性,不能支持定制的节点依赖。赵等人。[130]解决了GCN中所有节点卷积滤波器分权矩阵的局限性。提出了一个语义GCN来研究这些语义信息和语义关系。语义图形卷积(SemGConv)运算用于学习边的通道权重。由于SemGConv层和非局部层是交织的,节点之间的局部和全局关系都被捕获。

​ 3D HPE数据集通常从具有选定日常运动的受控环境中收集。野外数据的三维姿态标注很难获得。因此,对于具有不寻常姿势和遮挡的野外数据,3DHPE仍然是一个挑战。为此,一组2D到3D的提升方法注重从没有3D姿势标注的原始图像中估计3D人体姿势,如[109] [134] [135] [110] [111]。周等人。[109]提出了一种将野外图像的2个标注作为弱标签的弱监督转移学习方法。三维位姿估计模块与二维位姿估计模块的中间层相连。对于野外图像,2Dpose估计模块执行有监督的2D热图回归,弱监督3D姿势估计模块应用3D骨长约束导致的损失。在弱监督3D姿势估计模块中,2Dpose估计模块执行有监督的2D热图回归,并且在弱监督3D姿势估计模块中应用3D骨长约束引起的损失。Habibie et al.[134]定制投影损失以优化没有3D注释的3D人体姿势。设计了一个3D-2D投影模块,用于根据预测的早期网络层的3D姿势估计2D人体关节位置。投影损失用于更新3D人体姿势,而不需要3D注释。在[136]的启发下,Chen et al.[135]针对提升-再投影-提升过程,提出了一种基于闭包和不变提升性质且具有几何自洽损失的无监督提升网络。闭合是指对于提升的3D骨架,经过随机旋转和重新投影后,生成的2D骨架将位于有效2D姿态的分布范围内。不变性是指从3D骨架改变2D投影的视点时,重新抬起的3D骨架应该是相同的。

​ 与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在先前的工作中。与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在[140]的基础上,Chen等人在[147]的基础上增加了骨骼方向模块和骨骼长度模块,以确保人体解剖在视频帧上的时间一致性,而Liu等人则增加了骨骼方向模块和骨骼长度模块。[148]利用注意机制识别重要帧,并对大的时间接受场中的长期依赖关系进行建模。Zenget al.[133]采用拆分重组策略来解决罕见且看不见的姿态问题。首先通过分离的时域卷积网络分支将人体分割成局部区域进行处理,然后将从每个分支获得的低维全局上下文进行合并以保持全局一致性。

​ 基于模型的方法。如图5©所示,基于模型的方法不包括如第2节所述的参数化身体模型(如运动学模型和体积模型)来估计人体姿势和形状。

​ 运动学模型是由具有运动学约束的骨骼和关节连接而成的关节体表示,近年来在三维HPE中受到越来越多的关注。许多方法利用基于运动学模型的先验知识(例如骨骼关节连接性信息、关节旋转特性和固定的骨骼长度比)来估计似是而非的姿势,例如,[149] [19] [150] [151] [152] [153] [154] [155]。周等人。[149]将运动学模型作为运动层嵌入到网络中,以实施方向和旋转约束。Nie等人[150]和Lee等人。[156]采用了LSTM骨架网络,以利用联合关系和连通性。根据运动学结构,观察到人体各部分有明显的自由度(DOF),王等人说。[151]And Nie等人。[154]提出了双向网络对人体骨骼的运动学和几何依赖性进行建模。Kundu等人。[152]设计了一种基于能量损失推断局部运动学参数的运动学结构保留方法,并基于双亲相对局部肢体运动学模型对二维零件段进行了探索。Xu等人。[153]论证了噪声2D关节是实现精确3D位姿估计的关键障碍之一,因此采用2D位姿校正模块对不可靠的2D关节进行基于运动学结构的精化。赞菲特·艾尔。[158]引入了一种具有可微语义部分对齐损失函数的运动学潜在归一化流动表示(应用于原始分布的可逆变换序列)。与生成人体姿势或骨骼的运动学模型相比,体积模型可以恢复高质量的人体网格,提供额外的人体形状信息。作为最流行的体积度量模型之一,SMPL模型[25]由于与现有的渲染引擎兼容,在三维HPE中得到了广泛的应用,如[159] [160] [161] [162] [163] [164] [165] [166] [167] [168]等。Tan等人。[161]、董等人的研究成果。[162]Pavlakos等人。[169]和Omran等人。[170]回归SMPL参数以重建3D人体网格。Kolotouros等人没有预测SMPL参数。[171]利用Graph-CNN结构回归了SMPL网格点的位置。[172]将SMPL模型与层次网格变形框架相结合,增强了树形三维变形的灵活性。Kundu等人。[173]在SMPL模型中加入颜色恢复模块,通过反射对称性获取顶点颜色。Arnab等人。[113]指出使用SMPL模型的方法在野外数据上通常是失败的。他们使用束调整方法来处理遮挡、异常姿势和对象模糊。Doerschand Zisserman[165]提出了一种转移学习方法,通过在合成视频数据集超现实[174]上训练来回归SMPL参数。Kocabas等人。[175]包括大规模运动捕捉数据集[176],用于对其基于SMPL的方法VIBE(Video Inference For Body Pay And Shape Estimation)进行对抗性训练,VIBE利用海量通过姿势回归模块区分真实人体运动和预测姿势。由于低分辨率的视觉内容在现实场景中比高分辨率的视觉内容更常见,当分辨率降低时,现有的训练有素的模型可能会失败。[177]将对比学习方案引入到基于自监督分辨率感知SMPL的网络中,自监督对比学习方案使用自监督损失和对比特征损失来增强特征和尺度的一致性

​ 有几种扩展的基于SMPL的模型来弥补SMPL模型的局限性,如计算复杂度高,缺少手和面部标志。Bogo等人。[159]提出了一种基于SMPLify的三维人体网格估计方法,该方法将SMPL模型拟合到检测到的2D节点上,使重投影误差最小。Lassneret等人提出了SMPLify的扩展版本。[160]。

​ 采用随机森林回归方法回归SMPL参数,减少了运行时间,但仍不能达到实时吞吐量。金泽等人。[178]在此基础上,提出了一种对抗性学习方法来实时直接推断SMPL参数。Pavlakoset al.[179]在SMPLify方法的基础上,提出了SMPLify-X模型,该模型是借鉴AMASSDataSet[176]的改进版本。Hassan et al.[163]进一步扩展了SMPLify-XTO Prox-一种通过添加3D环境约束来实施与对象排除的最近关系的方法。Kolotouros等人。[164]在训练循环中使用SMPLify的同时,将基于回归和基于优化的SMPL参数估计方法集成到一种名为SPIN(SMPL OPTIMIZATION In The Loop)的新方法中。奥斯曼等人[180]将SMPL升级为STAR,训练时增加了10,000次扫描,以实现更好的模型泛化。模型参数个数减少到SMPL的20%。

​ 除了使用基于SMPL的模型之外,还使用其他体积测量模型来恢复3D人体网格,例如,[181][182][183][184]。Chen等人。[182]引入圆柱体人模型,为3D数据生成遮挡标签,并进行数据增强。引入姿态正则项来惩罚错误估计的遮挡标签。香等人。[183]利用亚当模型[30]来重建三维运动。提出了一种三维人体表示方法,称为三维零件方向场(3D Part Orientation Field,POFS),用于编码人体各部位在二维空间中的三维方位。Wang等人。[185]提出了一种新的人体网格的骨级蒙皮模型,该模型通过设置骨长和关节角度,将骨建模和特定于身份的变化解耦。Fisch和Clark[186]提出了一个定向关键点模型,该模型可以计算6DHPE的全三轴旋转,包括偏航、俯仰和横摇。

B. 多人3D HPE

对于来自单目RGB图像或视频的3D多人HPE,此处注意到与2D多人HPE类似的类别:自上而下方法和自下而上方法,分别如图6(A)和图6(B)所示。3.2节中二维自上而下和自下而上方法的比较也适用于三维情况。

自上而下的方法

​ 三维多人HPE自上而下的方法是先进行人体检测,再进行个体检测。然后对每个检测到的人,通过三维姿态网络估计绝对根(人体的中心关节)坐标和三维根相对姿态。基于每个人的绝对根坐标及其根相对姿势,所有姿势都与世界坐标对齐。**[188]定位每个人物的候选区域以生成潜在姿势,并使用回归算子联合细化姿势方案。这种定位-分类-回归方法(LCR-Net)在受控环境数据集上表现良好,但不能很好地推广到野外图像。为了解决这个问题,Rogez等人[189]提出了LCR-NET++,通过对训练数据进行合成数据扩充来提高性能。赞菲特·艾尔。[190]增加了带场景约束的3D多人HPE模块的语义分割。此外,采用匈牙利匹配方法解决了基于视频的多人三维HPE的三维时间分配问题。穆恩等人。[191]介绍了一种相机距离感知的方法,即将裁剪后的人体图像送入他们开发的RootNet中,以估计人体根部的相机中心坐标。然后是根相对3D每个修剪过的人的姿势都是由建议的PoseNet估计的。Benzine等人。[192]**提出了一种基于姿态估计和检测锚点的单发PandaNet(Pay Estimation and Detection Anchor-based Network)方法。为了避免遮挡问题,引入了一种基于锚点的低分辨率表示方法。开发了一个姿态感知锚点选择模块,通过去除模糊锚点来解决重叠问题,并使用不同尺度下损失的自动加权来处理不同体型的人的不平衡问题。Li等人。[193]解决了自上而下方法中缺乏全球信息的问题。它们采用层次化的多人序关系方法,利用本体层次、语义和全局一致性对交互信息进行层次化编码。

自下而上的方法

​ 与自上而下的方法不同,自下而上的方法首先生成所有的身体关节位置和深度图,然后根据根部深度和部分相对深度将身体部位与每个人相关联。自下而上方法的一个关键挑战是如何对属于每个人的人体关节进行分组。赞菲尔·埃塔尔。[194]将人员分组问题表述为二进制整数规划(BIP)问题。肢体评分模块用于估计被检测关节的候选运动连接,骨架分组模块通过求解BIP问题将肢体组装成骨架。Nie等人[101]提出了一种单级多人姿态机器(SPM),为每个人定义唯一的身份根关节,利用密集的位移图将身体关节与每个根关节对齐。然而,该方法的局限性在于,只有配对的2D图像和3D姿势注释才能用于有监督学习。在没有配对的2D图像和3D姿势注释的情况下,Kundu等人。[195]提出了一种冰冻网络,在实际部署范例下开发两种不同模态之间共享的潜在空间,从而将学习归结为一个跨模型对齐问题。Fabbri等人。**[196]**提出了一种基于距离的多人设置关节连接启发式算法,从检测到的头部(即置信度最高的关节)开始,根据三维欧氏距离选择距离最近的关节进行连接。

​ 自下而上方法的另一个挑战是遮挡。为了应对这个挑战,Metha等人。[197]提出了一种遮挡-鲁棒姿势图(ORPM)方法,将冗余率加入到位置图公式中,从而促进了热图中的人的关联,特别是对于被遮挡的场景。甄氏等人。[187]通过对人与人之间的遮挡和骨骼长度约束的推理,利用深度感知部分关联算法为个体分配关节。Mehta等人。[198]快速推断可见身体关节的中间3D姿势,而不考虑准确性。然后,利用学习到的姿态先验和全局上下文,通过推断被遮挡的关节来重建完整的三维姿态。通过应用时间相关性和拟合运动学骨骼模型,最终的3D姿势被细化。

​ 自上而下和自下而上方法的比较自上而下的方法通常依靠最先进的人物检测方法和单人姿势估计方法来获得令人满意的结果。但是,随着人数的增加,特别是在拥挤的场景中,计算复杂度和推理时间可能会变得过大。而且,由于自上而下方法首先检测每个人的包围盒,场景中的全局信息可能会被忽略。裁剪区域的估计深度可能与实际深度排序不一致,并且预测的人体可能被放置在重叠位置。相反,自下而上方法具有线性计算和时间复杂性。然而,如果目标是恢复三维人体网格,那么自下而上的方法重建人体网格并不是一帆风顺的。对于自上而下的方法,在检测到每个人之后,通过结合基于模型的3D单人HPE估计器,可以很容易地恢复每个人的人体网格。而对于自下而上的方法,需要额外的模型回归模块来根据最终的三维姿态重建人体网格。

4.1.2 多视图3D HPE

​ 单视环境下三维HPE的部分遮挡是一个具有挑战性的问题。克服这个问题的自然解决方案是从多个视图估计3D人体姿势,因为一个视图中的遮挡部分在其他视图中可能会变得可见。为了从多个视图重建三维姿态,需要解决不同摄像机之间对应位置的关联问题。

​ 一组方法[199] [200] [201] [202] [203]利用人体模型通过优化模型参数使模型投影与二维姿态相匹配来解决关联问题。广泛使用的3D图片结构模型**[204]就是这样的模型。然而,这些方法通常需要较大的内存和较高的计算代价,特别是对于多视点环境下的多人三维HPE。罗丁·埃塔尔。[205]在网络中采用了多视点一致性约束,但需要大量的三维地面实况训练数据。为了克服这一限制,罗丁·埃塔尔(Rhodin Etal)。[206]在此基础上,提出了一种编解码器框架,用于从多视图图像和背景分割中学习几何感知的3D潜在表示,而不需要3D注释。Chen等人。[207] [中英文摘要]、董某等人。[202]** [中英文摘要]、Chenet al.[208]、Mitra等人。[209],Iqbal等人。[210]、张某等人[211]、黄某等人。[212]提出了具有一致性约束的多视点三维人体姿态重建框架。Pavlakos等人。[199]和张等人的研究成果。[213]基于所有标定的摄像机参数,将多视角图像的2D关键点热图聚合成3D图片结构模型。但是,当多视角摄像机环境发生变化时,需要对模型进行重新训练。梁等人。[201]和Habermann等人[214]从多视图图像中推断出非刚体3D变形参数以重建3D人体网格,KadkhoDamohammadi和Padoy[215],邱等人。[200]和Kocabas等人。**[216]**采用对极几何匹配成对多视点姿态进行三维姿态重建,并将其方法推广到新的多视点摄像机环境中。应当注意,在没有周期一致性约束的情况下单独匹配每对视图可能导致不正确的3D姿势重建[202]。Tu等人[203]在3D体素空间中聚合了每个摄像机视图中的所有特征,以避免每个摄像机视图中的错误估计。设计了一个长方体建议网络和一个姿态回归网络,分别用于定位所有人和估计三维姿态。当给出足够的观点时(超过十个),使用所有视点进行三维姿态估计是不现实的。Pirinen等人。[217]提出了一种自监督强化学习方法,通过三角剖分选择少量视点进行三维姿态重构。

​ 在多视点HPE中,除了精度外,还需要考虑轻量级的体系结构、快速的推断时间和对新摄像机设置的高效适应。与**[202]将所有视点输入匹配在一起相比,Chen等人提出了一种新的方法。[218]应用迭代处理策略,在迭代更新3D姿势的同时,将每个视图的2D姿势与3D姿势进行匹配。与以前的方法相比,它们的运行时间可能会随着摄像机数量的增加而爆炸,它们的时间复杂度是线性的。Remelli等人。[219**]将每个视图的编码图像编码成一个统一的潜在表示,使特征地图从摄像机视点中解脱出来,作为一种轻量级的规范融合,使用基于GPU的直接线性变换将这些2D表示提升到3D姿态,以加快处理速度。为了提高多视点融合方案的泛化能力,Xieet et al.[220]提出了一种预先训练的多视点融合模型(MetaFuse),该模型能够有效地适应新的摄像机场景,标签数据较少。他们部署了模型不可知的元学习框架来学习用于适应的通用融合模型的最佳初始化。

4.2 其他来源的3D HPE

​ 虽然单目RGB相机是3D HPE最常用的设备,但其他传感器(如深度传感器、IMU和射频设备)也可用于此目的。

深度和点云传感器

​ 深度传感器以其低成本和高利用率的特点在三维计算机视觉任务中受到越来越多的关注,作为三维HPE的关键挑战之一,深度传感器的使用可以缓解深度模糊问题。Yu等人在[221]中提出了一种称为DoubleFusion的单视图实时方法,可以在不使用图像的情况下从单深度传感器估计3D人体姿势。内层通过体积表示重建三维形状,外层通过融合更多的几何细节来更新体形和姿态。熊某等人。**[222]**提出了一种基于深度图像的锚杆-关节回归网络(A2J)。通过将估计的多个锚点与全局-局部空间上下文信息相结合来估计三维关节位置。KadkhoDamohammadi等人。[223]采用多视角RGB-D摄像机采集真实手术室环境中含有深度信息的彩色图像,采用随机森林先验算法融合先验环境信息。最后通过多视角融合和RGB-D优化估计最终的三维姿态。[224]从RGB-D视频中重建具有高分辨率反照率纹理的细节网格。

​ 与深度图像相比,点云可以提供更多的信息。最先进的点云特征提取技术PointNet**[225]和PointNet++[226]在分类和分割任务中表现出了优异的性能。江等人。[227]将Point-Net++与SMPL人体模型相结合进行三维人体姿态回归,改进后的PointNet++结合图聚合模块可以提取更多有用的无序特征。映射后骨架图模块提取有序特征,回归SMPL参数,进行精确的三维位姿估计,通过关注模块将有序的骨架关节特征转化为有序的骨架关节特征。王等人。[228]**提出了基于时空网格卷积的PointNet++精细化三维人体网格预测方法。

带有单目图像的IMUS

​ 可穿戴式惯性测量单元(IMU)通过记录运动,在没有物体遮挡和衣物遮挡的情况下,跟踪人体特定部位的方位和加速度。然而,在使用IMU时,可能会出现漂移问题。Marcard等人。[229]提出了一种稀疏惯性位置器(SIP),用于从附着在人体上的6个IMU重建人体姿势。收集到的信息被拟合到带有相干约束的SMPLbody模型中,以获得准确的结果。Marcard等人。**[230]进一步将6-17个IMU传感器与用于野外3DHPE的手持式移动摄像机相关联。介绍了一种基于图的优化方法,将每个2D人物检测分配给来自远程帧的3D姿势候选者。Huang et al.[231]解决了稀疏惯性位姿(SIP)方法的局限性[229],多个姿态参数可以产生相同的IMU方位,且采集IMU数据耗时。因此,通过在SMPL网格上放置虚拟传感器以从海量数据集[176]的运动捕获序列中获得方向和加速度,创建了一个大的合成数据集。提出了ABI-Directional RNN框架,利用过去和将来的信息将IMU方向和加速度映射到SMPL参数。张等人。[232]引入了一种定向正则化图像结构模型,用于从与IMU定向相关的多视图热图中估计3D姿态。Huang et al.[233]**提出了一种将IMU数据与多视图图像进行融合的两阶段方法DeepFuse,第一阶段只处理多视图图像来预测体积表示,第二阶段使用IMU来通过IMU骨骼精化层来细化3D姿势。

射频设备

​ 基于射频(RF)的传感技术也已用于定位人。无需携带无线发射器就可以在WiFi范围内穿越墙壁和弹离人体是部署基于射频的传感系统的主要优势,同时由于非视觉数据可以保护隐私,但是与可视摄像机图像相比,射频信号的空间分辨率相对较低,并且射频系统需要生成粗略的3D位姿估计。赵等人在**[234]中提出了一种基于射频的深度学习方法,称为RF-POSE,用于估计多人场景中的2D姿势。后来的扩展版本,命名为RF-Pose3D[235],可以估计多人的3D骨骼。在此基础上,赵等人[236]**提出了一种基于多头注意模块的时态对抗性训练方法RF-Avtal,利用SMPL人体模型恢复完整的3D人体模型。

其他传感器/来源

​ 除使用上述传感器外,Isogawa等人。[237]从由在线视距(NLOS)成像系统捕获的光子的3D时空直方图估计3D人体姿势。Tome et al.[238]解决了通过鱼眼摄像机进行以自我为中心的3D姿势估计的问题。Saini等人。**[239]使用多个自主微型飞行器(MAV)捕获的图像估计人体运动。聪明人等人。[240]**从压力图像中聚焦于床上睡觉位置的HPE由压力感应垫收集。

4.3 3D HPE摘要

​ 三维HPE近年来取得了很大的进展,由于大量的3D HPE方法采用了2D到3D的提升策略,使得3D HPE的性能有了很大的提高,OpenPose[17]、CPN[90]、AlphaPose**[89]和HRNet[81]**等2D HPE方法在3D HPE方法中被广泛用作2D姿态检测器。除了3D姿势之外,一些方法还可以从图像或视频中恢复3D人体网格,例如[164] [175] [241] [242]。然而,尽管到目前为止已经取得了进展,但仍然存在几个挑战。

​ 其中一个挑战是模型泛化。高质量的三维地面真实姿态标注依赖于运动捕捉系统,而运动捕捉系统不容易部署在随机环境中。因此,现有的数据集主要是捕捉无约束场景。最先进的方法可以在这些数据集上取得令人振奋的结果,但当应用于野外数据时,它们的性能会下降。游戏引擎可以生成具有不同姿势和复杂场景的合成数据集,例如超现实数据集**[174]**和GTA-IM数据集[243]。然而,由于合成数据分布与真实数据分布之间的差距,从合成数据中学习可能达不到期望的性能。

​ 与二维HPE一样,对遮挡的鲁棒性和计算效率也是3D HPE面临的两个关键挑战。目前的3D HPE方法在拥挤的场景中,由于严重的相互遮挡和可能的低分辨率内容,性能会有相当大的下降。三维HPE比二维HPE对计算的要求更高。例如,2D到3D提升方法依赖于2D姿势作为推断3D姿势的中间表示。因此,在保持高精度位姿估计的同时,开发计算效率高的二维HPE管线显得尤为重要。

5 数据集和评估指标

​ 在进行HPE时,非常需要数据集。为了在不同的算法之间提供公平的比较,它们也是必要的。由于应用场景的复杂性和多样性,收集一个全面的、通用的数据集是一个挑战。为了评估和比较基于不同度量的结果,我们收集了一些数据集。在这一部分中,我们介绍了用于HPE的传统数据集,以及用于基于2D和3D深度学习的HPE方法的更新的数据集,在这一部分中,我们将介绍HPE中使用的传统数据集,以及最近用于基于2D和3D深度学习的HPE方法的数据集。除了这些具有不同功能和任务要求的数据集之外,本节还涵盖了二维和三维HPE的几个常用评估指标。并总结了现有方法在流行数据集上取得的结果。

5.1 二维HPE的数据集

​ 在深度学习应用于人体姿态估计之前,已经有了大量的二维人体姿态数据集。这些数据集有两种类型:(1)上半身姿势数据集,包括Buffy Stickmen[244]、ETHZ Pascal Stickmen[245]、We AreFamily[246]、Video Pose 2[247]和Sync。活动[248];以及(2)全身姿势数据集,包括Pascal PersonLayout[249]、Sports[250]和UIUC People[251]。然而,目前使用这些二维HPE数据集的工作很少,因为它们有很多局限性,如缺乏多样的目标运动和图像数量少。由于基于深度学习的方法是由大量的训练数据推动的,因此本节只回顾大规模的2D HPE数据集。它们在表2中归纳为两个不同的类别(基于图像和基于视频)。

5.1.1 基于图像的数据集

Frames Labeled In Cinema (FLIC) Dataset

​ [252]是最早的基于图像的二维HPE数据集之一,它包含了从好莱坞电影中自动收集的5003幅图像,其中约4000幅图像用作训练集,其余的用作测试集。FLIC数据集使用名为Poselets[260]的身体部位检测器,从30部流行好莱坞电影的每10帧中获得约20K个候选人物。这些图像中的对象有不同的姿势。从电影中获取的全套帧被称为FLIC-FULL数据集。它是原始FLIC数据集的超集,包含20,928个遮挡的非正面样本。在[53]中引入了一种新的基于FLIC的数据集,命名为FLIC-PLUS,它通过删除与FLIC数据集中的测试集包含相同场景的所有图像来实现。数据集链接:https://bensapp.github.io/flic-dataset.html

Leeds Sports Pose (LSP) Dataset

​ [16]有2,000张来自Flickr的注释图片和8个运动标签,涵盖不同的运动项目,包括田径、羽毛球、棒球、体操、跑酷、足球、网球和排球。在LSP数据集中,每个人的全身共标记了14个关节,此外,利兹运动姿势扩展数据集(LSP-Extended)[254]扩展了LSP数据集,仅用于训练。LSP扩展数据集具有超过10,000个来自Flickr的映像。在最近的研究中,LSP和LSP扩展的数据集已经用于单人HPE。数据集链接:https://sam.johnson.io/research/lsp.html

Max Planck Institute for Informatics (MPII) HumanPose Dataset

​ [253]是用于评估人工HPE的流行数据集。该数据集包含约25,000张图像,其中包含40,000多个带有注释的人体关节,并在[261]的基础上,采用两级分层的方法系统地收集图像,以捕捉日常的人体活动。整个数据集涵盖了410个人类活动,并且所有的图像都进行了标记。每张图片都是从YouTube视频中提取出来的,并提供了前后未加注释的帧。此外,丰富的注释包括工作人员在Amazon Mechanical Turk上重新标记了身体部位闭塞、3D躯干和头部方向。MPII中的图像适用于2D单人或多人HPE。数据集链接:http://human-pose.mpi-inf.mpg.de/#

元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章