锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

培育强人工智能的「ImageNet」:上海交大卢策吾组提出铰接物体知识库 AKB-48

时间:2023-09-24 11:37:02 20tqc100myf电容器

1c54bf1d71b25a49ab1a21d7b012aa74.png

来源:前沿技术

编译:OGAI

编辑:陈彩娴

ImageNet 它的出现极大地促进了计算机视觉领域的发展。在通往强人工智能的道路上,我们还需要考虑物体的外观、结构、物理性质、语义等因素。为此,上海交通大学陆策武集团最近推出了一个大型的现实世界铰接物体知识库 AKB-48

铰接物体在我们的生活中无处不在。全面了解这些铰接物体的外观、结构、物理性质和语义对研究社区非常有帮助。

目前对铰接物体的理解通常是基于不考虑物理特性的方法 CAD 从模拟环境到实际应用,模型的合成物数据集不利于视觉和机器人任务的泛化。

我们提出弥补这一差距AKB-48:大型铰接物体知识库包含 48 个类别的 2,037 现实世界中的三维铰接物体模型。

我们通过铰接知识图谱 ArtiKG 描述每个物体。为了构建 AKB-我们提出了一个快速铰接知识建模过程(FArM),可以在 10-15 在几分钟内构建铰接物体 ArtiKG,在现实世界中,物体建模的成本大大降低。基于这些数据,我们提出了一个新颖的集成网络框架 AKBNet,用于类别级视觉铰接操作(C-VAM)任务。我们提出了三个对比基准子任务,即姿态估计,物体重建和控制。

论文地址:https://arxiv.org/pdf/2202.08432v1.pdf

代码地址:

https://liuliu66.github.io/articulationobjects/

1

引言

铰接对象由多个关节连接的刚性部分组成,可在三维空间中旋转或平移。铰接对象的知识有助于许多研究社区(如计算机视觉、机器人和特定的人工智能)。现有的铰接对象数据集包括 PartNet-Mobility、ReArt-48、RBO 等。

然而,这些数据集大多更加关注结构信息(例如,部位分割、运动结构),但是很少注意外形(例如,纹理、细致的几何信息),也很少注意物理特性(例如,每个部位的质量、惯量、材料和摩擦力),也很少涉及语义(例如,类别、功能可供性)。然而,一些重要的任务非常依赖于这些信息,例如,目标检测依赖于「纹理」,依赖于三维重建「详细的几何信息」,依赖于目标控制「物理特性」,这些物体知识的缺乏不利于学习模型的泛化。

本文提出了促进铰接对象研究的建议 AKB-48:一个包含 48 个类别、2,037 实例大规模真实铰接知识库。对于每一个例子,我们根据相应的真实物体扫描物体的模型,并手动细化。物体知识会被组织到一个铰接知识图谱(ArtiKG)它包含各种物体属性和特征的详细标记。为了扫描和标记大数据集,我们提出了快速铰接知识建模(FArM)流程。

具体来说,我们使用三维传感器和转盘,集成了结构和语义标记 GUI、现实世界实验开发了一种用于物理属性标记的物体记录系统。该系统节省了大量时间、金钱和成本省了大量的时间、金钱和成本(每个物体的标记成本为 3 美元,耗时 10-15 分钟)。本文对比了 CAD 建模和反向扫描。总之,这个过程的资本和时间预算只是前者 1/33 和 1/5。

我们利用 AKB-48 提出了数据集AKBNet,这是一种类别级视觉铰接控制(C-VAM)新的任务集成架构。 C-VAM 任务,视觉系统 AKBNet 需要能够估计物体的姿势,重建物体的几何形状,并在推理类控制策略。因此,它由三个感知子模块组成:

(1)用于估计类别级铰接物体的姿态「姿态模块」:该模块旨在估计某一类中从未见过的铰接对象的每个部分 6D 姿势。然而,以往的研究通常针对运动类别定义相同的运动结构。我们的姿势模块将「类别」概念扩展到「语义类别」,同一类物体可以有不同的运动结构。

(2)用于重建铰接物体「形状模块」:获得姿态后,我们编码输入图像的形状,重建每个部分的形状。完整的几何信息对于决定交互控制在哪里至关重要。

(3)用于控制铰接物体「控制模块」:通过感知获得铰接信息(如零件分割、零件姿势、铰接属性、完整网格)后,可根据观察结果推断交互策略。我们设置了它「打开」和「拉动」旋转铰接和移动铰接对应于操作任务。

在评估每个模块时,我们假设模块的输入是上一个模块 Ground Truth。在评估整个系统时,输入是上一个模块的输出。显然,我们不能 AKB-48 基准测试支持的所有任务。我们希望它能成为未来计算机视觉和机器人领域铰接研究的良好平台。

本文的贡献包括以下三点:

(1)提出了 AKB-48 它包含的数据集 48 个类别的 2,037 个铰接模型,我们采用了一个多模态知识图 ArtiKG 组织丰富的标记信息。这个数据集有助于缩小当前视觉人工智能研究之间的差距。据我们所知,这是第一个从现实世界中收集的标准信息丰富的大型铰接数据集。

(2)提出了快速铰接知识对象的建模过程 FArM,使得从现实世界中收集铰接物体信息更加容易。在构建真实世界的三维模型数据集时,该流程可以大大降低时间和金钱成本阿。

(3)提出了一种用于整体类别级视觉铰接操作的方法(C-VAM)新的任务架构 AKBNet。实验表明,该架构的各个部件和整体模型在现实世界中都是有效的。

2

铰接知识库:AKB-48

在构建知识库时,我们需要回答三个问题:(1)我们应该标记什么样的知识?(2)我们应该标记什么物体,物体来自现实世界还是模拟世界?(3)如何有效地标记物体知识?

铰接物体知识图谱 ArtiKG

不同的任务需要不同类型的物体知识。为了统一标记的表征,我们将其组织成多模态知识图谱 ArtiKG。ArtiKG 它由外观、结构、物理属性和语义四个主要部分组成。

图注:AKB-48 数据集中定义的铰接只是图谱(ArtiKG)。

外观

我们将每个例子的形状与网格数据结构和纹理一起存储。当我们从现实世界中扫描物体时,我们收集物体的多视图 RGB-D 快照。

结构

铰接对象与刚体对象的关键区别在于运动结构。铰接对象具有关节和部分的概念,这对刚体毫无意义。对于每个关节,我们标记了关节的类型、参数和运动限制。对于每个部分,我们分割每个运动部分。

语义

在标记基本的几何和结构信息后,我们将语义信息从粗到细的过程赋予对象。我们给每个例子一个 uuid。然后,我们按照 WordNet 物体分配类别。此外,我们还标记了部分的语义。虽然我们已经标记了运动部分,但它与语义部分并不完全相同。以带把手的马克杯为例,把手不是通过关节附着在马克杯本体上,所以它不是一个运动部分,而是一个语义部分,因为它表明人类通常抓住马克杯。

物理属性

真实的物体存在于物理世界中,通常具有物理属性,这对于精确仿真、真实世界中的控制和铰接物体的交互是很重要的。因此,我们为模型存储物理属性的标注,包括每个部位的质量、惯量、材料和表面摩擦力。

3

物体选择:扫描真实世界 vs. CAD 建模

本文从标记的准确性、时间和金钱成本两个方面对现实世界的扫描和比较 CAD 建模。

标注准确性

根据 ArtiKG 我们可以看到,与内容相比, CAD 从现实世界中扫描的物体有许多优点(如外观和物理性质)。但不可否认的是,CAD 模型可以模拟内部结构,扫描技术更注重物体表面。幸运的是,大多数日常用品都可以拆卸,所以扫描技术可以很好地处理它们。

时间和金钱成本

在研究新的类别或运动结构时,ShapeNet 模型收集范式的类型仅限于手工构建 CAD 模型需要大量的时间和金钱。另一方面,在日常生活中,许多铰接对象的价格偏差可以被外行扫描。 CAD 淘宝上的外包服务价格如下表所示(单位:美元)。

4

知识建模快速铰接(FArM)

模型获取设备

为了有效地收集现实世界的铰接模型,我们设置了如下图所示的记录系统:

图:(1)多尺度物体旋转台(2)为跟踪标记(3)吸光项(4)升降支架(5)Shining 3D 英特尔扫描仪(6-8)用于捕获多视图物体数据 RealSenseL515相机

关节建模

我们开发了一个三维物体建模 GUI。建模过程包括三个部分:物体对齐、部分分割、关节标记(详见原文)。

物理标注

现实世界中的铰接物体存在于物理世界中,具有物理属性。为了使铰接物体存在于物理世界中。 AKB-48 可以被用于现实世界的机器人控制和交互任务,我们还为铰接物体的每个部分标注了以下物理属性:各部位质量、各部位惯性力矩、各部位材料和摩擦力。

数据集分析

物体类别

在构建 AKB-48 数据集的过程中,我们考虑了以下要求:(1)通用性。AKB-48 能够涵盖日常生活中常见场景中的大部分铰接物类别。(2)多样性。每个类别中的物体有各种各样的形状,形变能力、纹理和运动结构。(3)用例。所选物体应该包含各种使用上的功能。此外,完成控制性能的能力是需要优先考虑的。

统计信息

图注:AKB-48 与其它流行的模型数据集对比。

我们的 AKB-48 数据集在 ArtiKG 中提供了四种丰富的标注信息:外观、结构、语义和物理属性。AV:平均顶点数。AT:三角形的平均数目。ST:语义分类。PS:各部位语义标签。PM:各部位质量。PI:各部位惯性力矩。PF:各部位的摩擦力。

AKBNet

AKBNet 是一个用于 C-VAM 任务的集成架构。AKBNet 的输入是单张带有检测到的二维边界框的 RGB-D 图像。AKBNet 中构建了三个子模块,旨在估计各部位的 6D 姿态,重构铰接物体的完整几何形状,并根据感知信息推理交互策略。

图注:AKBNet 架构示意图。

姿态模块

给定带有二维边界框的图像,我们可以获取部分点云 P。我们首先通过 Pointnet++提取点云特征,然后建立了用于预测逐点分割 S 和部位级归一化物体坐标空间(NOCS)图的两个分支。为了解决为止运动结构和关节类型的问题,我们在特征提取器上引入了三个分支,根据相应的部位对关节类型分类,并预测关节的属性(位置,轴)。最后,我们通过带有运动约束的姿态优化算法恢复出每个刚性部位的 6D 姿态。

形状模块

给定部分点云 P,形状模块旨在恢复出完整的几何外形和相应的关节状态。我们利用 A-SDF 构建了一个特征提取器用来处理连接后的部分点云和高斯初始化的形状嵌入、关节嵌入。

控制模块

控制模块执行两项任务:分别对应于铰接结构中的转动关节和移动关节的打开和拉动。为了完成这些任务,我们训练了两个强化学习智能体。

我们给出了两种状态表征:(1)对象状态(2)智能体状态。动作包括智能体末端执行器的三维平移和夹持器的打开宽度。奖励函数是转动关节沿目标部件关节轴方向的旋转角度,移动关节沿目标部件关节轴方向的移动距离。我们使用两种常用的强化学习基线(带有 HER 的 TQC 和 SAC)训练。

5

实验结果

姿态模块性能

我们在真实世界测试集上评估了 NPCS、A-NCSH 和 AKBNet 在类别级关节姿态估计任务中的作用。

图注:类别级铰接姿态估计结果。

在姿态估计方面,AKBNet 在旋转、平移和 3D IoU 指标上的误差分别为 9.8、0.021 和 53.6,高于 NPCS 和 A-NCSH。在关节相关的评估方面,AKBNet 可以精确预测未见过的铰接物体的关节类型,准确率为 94.6%。此外,AKBNet 在关节轴和位置预测方面分别具有 8.1 和 0.019 的误差。

形状模块性能

图注:铰接物体重建结果。

给定真实的关节状态,形状模块可以以 4.2 Chamfer-l1 距离重建出关节物体。另一方面,在给定预测关节状态的情况下,系统地评估形状模块,该状态是由姿态模块预测的相连的两部分的姿态推导出来的。Chamfe-l1 距离比真实的关节状态下高 3.3,说明所预测的姿态对重建性能影响较大。

控制模块性能

图注:铰接物体控制任务的成功率。

我们比较了 TQC+HER 训练算法与 SAC+HER 训练算法在 AKBNet 控制模块上进行打开和拉动任务的性能。给定真实的物体状态时,AKBNet 完成打开和拉动任务的成功率分别为 72.5% 和 98.7%。然而,当使用预测的物体状态时,我们的方法只有 40.2% 和 44.6% 的成功率。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章