锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

SLIM:自监督点云场景流与运动估计(ICCV 2021)

时间:2023-09-03 22:07:01 传感器zh30104

点击上方“3D视觉车间,选择星标

第一时间送达干货

6eb35d1f332c3f9b6ed55a88324a7e4f.jpeg

作者泡泡机器人

来源丨泡泡机器人SLAM

标题:SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

作者:Stefan Andreas Baur, David Josef Emmerichs, Frank Moosmann, Peter Pinggera1, Ommer and Andreas Geiger

来源:ICCV 2021

编译:cristin

审核:zh

摘要

大家好,今天给大家带来的文章SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

近年来,监督学习框架中出现了几种基于点云的三维场景。Sceneflow固有地将每个场景分为多个移动场景agent聚类遵循刚体运动。然而,现有的方法并没有在自我监督和训练程序中使用数据的特性,这可以改善和稳定流量预测。基于鲁棒刚性自我运动估计与原始流量预测的差异,我们生成了自我监督运动分割信号。反过来,我们的算法用于关注静止点,聚集场景静态部分的运动信息。我们通过反向传输梯度学习我们的模型端到端kabch并证明这可以改进ego-motion从而改善场景流估计。在消融研究中,我们进一步分析了在联合运动分割和场景流时的性能增益。我们还提出了一种新的网络架构三维激光雷达场景流,可以处理比以前训练中点多一个数量级。

project_home:https://baurst.github.io/slim/

主要工作和贡献

1. 我们的方法是基于点云的第一种场景流估计方法,它将点分为运动和静止。

2. 我们的方法在基于点云的场景流估计方面明显优于以前的方法,特别是在前所未见的数据泛化方面。我们在多个数据集中演示了这些数据,包括自我监督和完全监督设置。

3. 我们新颖的网络架构可以处理比目前弱或自我监督方法多得多的点。

方法

估计三维场景流使用两个连续输入点云Pt∈RN×3, Pt 1∈RM×3.预测第一点云中每个点的三维位移向量,代表每个点的运动w.r.t。

图1 我们的网络架构概述。卷积门控循环单元(ConvGRU)根据预测的flo进行相关搜索、迭代预测流和日志更新

Point Cloud Encoder:支柱特征网引入[20](共享权值)(PFN)将输入点云Pt, Pt 1分别编码为BEV伪图像,得到的值It, It 1∈RH×W ×C再由骨干处理。我们使用相同的数据集BEV覆盖自行车周围的范围35m≤x, y≤35m的正方形,x, y为横轴。我们使用的分辨率是h =W= 640对应一个11左右cm柱的大小。

Flow Backbone:我们的主干在很大程度上受到了影响raft用于预测图像上的密集光流。它的核心组件是更新隐藏状态的阻塞和流预测,每次迭代产生更精细、更准确的流。因此,我们利用独立编码的输入图像构建相关体,利用之前的流量预测来找到相关值,从而将流量引导到更准确的匹配像素区域。尽管RAFT它是为密集光流设计的,但我们表明它分布稀疏BEV域也很适用,可以很好的推广。与常规图像相比,BEV该域由更分散、更小的区域和非常独立的运动模式(移动交通参与者)组成。

我们采用RAFT处理流量预测,迭代更新两个额外的对数,如图2所示。第一个logit 映射Lcls将点分类为静态或移动的世界框架作为输出信号。由于无特征表面不适合流量估计,流量预测的准确性在一个场景中会发生很大的变化。第二个logit Lwgt它被用来克服这个问题,允许网络显示其对流量估计的信心。这两种对数用于聚合和提高静态和动态场景元素的准确性。

Lclsis处理类似于流量处理,但可信度加权的任务与流量预测更密切相关,因此数据流在信息处理过程中耦合。除了这个小变化,我们还保留了它RAFT一般框架包括梯度不仅在输入流上归零,而且在每个更新块的输入日志上归零。

Output Decoder:首先,输出解码器使用这些BEV对输入点云进行映射pt注释每个点,使用一个流矢量搜索和两个logits Lcls,i,Lwgt,根据相应柱单元的值。通过这样做,我们假设柱子中所有点的行为都非常相似。我们相信这对于几乎所有室外测量的激光雷达点云都是正确的,因为所有移动的交通参与者都需要占用一些场地。

此外,大多数激光雷达系统的光束不向上。请注意,虽然我们的网络架构是专门用于这种方式的,但我们的损失框架适用于任何3D场景流预测不需要假设2D流动。输出解码器为了规范和改进静态场景中的流量预测,将其分类为still点聚合为单个相关的刚性运动测程变换Tr∈R4×4。

我们使用kabch算法[17]采用奇异值分解计算可微Tr值。每个点的权重wi每个流量矢量预测决定最终结果Tr影响程度。我们首先应用信度对数sigmoid激活它们,然后根据分类对数掩码它们。然后,我们将所有权重整合为1,以确保值的稳定性。

置信度logits只通过计算Tr接受梯度更新,是端到端训练,无需进一步监督

置信度logits只通过计算Tr接受梯度更新,是端到端训练,无需进一步监督

图2 对KITTI-SF定性比较场景的方法。AccR流量的准确估计是蓝色的,不准确的预测是红色的。从左到右:PointPWCNet (PPWC), PoseFlowNet (PF), Ours

实验结果

对于传

图3左:地面真实运动分割,右:预测动态,移动概率更高更亮

点击阅读原文, 本文下载链接即可获得。

本文仅进行学术分享。如有侵权行为,请联系删除。

3D视觉车间精品课程官网:3dcver.com

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线!(单模态 多模态/数据 代码)
3.彻底了解视觉三维重建:原理分析、代码解释、优化和改进
4.中国第一门面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释
6.彻底理解视觉-惯性-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化
8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论 源码 实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目 鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章