锐单电子商城，一站式电子元器件采购平台！

电话：400-990-0325

SLIM：自监督点云场景流与运动估计（ICCV 2021）

时间：2023-09-03 22:07:01 传感器zh30104

点击上方“3D视觉车间，选择星标

第一时间送达干货

作者泡泡机器人

来源丨泡泡机器人SLAM

标题：SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

作者：Stefan Andreas Baur, David Josef Emmerichs, Frank Moosmann, Peter Pinggera1, Ommer and Andreas Geiger

来源：ICCV 2021

编译：cristin

审核：zh

摘要

大家好，今天给大家带来的文章SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

近年来，监督学习框架中出现了几种基于点云的三维场景。Sceneflow固有地将每个场景分为多个移动场景agent聚类遵循刚体运动。然而，现有的方法并没有在自我监督和训练程序中使用数据的特性，这可以改善和稳定流量预测。基于鲁棒刚性自我运动估计与原始流量预测的差异，我们生成了自我监督运动分割信号。反过来，我们的算法用于关注静止点，聚集场景静态部分的运动信息。我们通过反向传输梯度学习我们的模型端到端kabch并证明这可以改进ego-motion从而改善场景流估计。在消融研究中，我们进一步分析了在联合运动分割和场景流时的性能增益。我们还提出了一种新的网络架构三维激光雷达场景流，可以处理比以前训练中点多一个数量级。

project_home：https://baurst.github.io/slim/

主要工作和贡献

1. 我们的方法是基于点云的第一种场景流估计方法，它将点分为运动和静止。

2. 我们的方法在基于点云的场景流估计方面明显优于以前的方法，特别是在前所未见的数据泛化方面。我们在多个数据集中演示了这些数据，包括自我监督和完全监督设置。

3. 我们新颖的网络架构可以处理比目前弱或自我监督方法多得多的点。

方法

估计三维场景流使用两个连续输入点云Pt∈RN×3, Pt 1∈RM×3.预测第一点云中每个点的三维位移向量，代表每个点的运动w.r.t。

图1 我们的网络架构概述。卷积门控循环单元(ConvGRU)根据预测的flo进行相关搜索、迭代预测流和日志更新

Point Cloud Encoder:支柱特征网引入[20](共享权值)(PFN)将输入点云Pt, Pt 1分别编码为BEV伪图像，得到的值It, It 1∈RH×W ×C再由骨干处理。我们使用相同的数据集BEV覆盖自行车周围的范围35m≤x, y≤35m的正方形，x, y为横轴。我们使用的分辨率是h =W= 640对应一个11左右cm柱的大小。

Flow Backbone:我们的主干在很大程度上受到了影响raft用于预测图像上的密集光流。它的核心组件是更新隐藏状态的阻塞和流预测，每次迭代产生更精细、更准确的流。因此，我们利用独立编码的输入图像构建相关体，利用之前的流量预测来找到相关值，从而将流量引导到更准确的匹配像素区域。尽管RAFT它是为密集光流设计的，但我们表明它分布稀疏BEV域也很适用，可以很好的推广。与常规图像相比，BEV该域由更分散、更小的区域和非常独立的运动模式(移动交通参与者)组成。

我们采用RAFT处理流量预测，迭代更新两个额外的对数，如图2所示。第一个logit 映射Lcls将点分类为静态或移动的世界框架作为输出信号。由于无特征表面不适合流量估计，流量预测的准确性在一个场景中会发生很大的变化。第二个logit Lwgt它被用来克服这个问题，允许网络显示其对流量估计的信心。这两种对数用于聚合和提高静态和动态场景元素的准确性。

Lclsis处理类似于流量处理，但可信度加权的任务与流量预测更密切相关，因此数据流在信息处理过程中耦合。除了这个小变化，我们还保留了它RAFT一般框架包括梯度不仅在输入流上归零，而且在每个更新块的输入日志上归零。

Output Decoder:首先，输出解码器使用这些BEV对输入点云进行映射pt注释每个点，使用一个流矢量搜索和两个logits Lcls,i,Lwgt，根据相应柱单元的值。通过这样做，我们假设柱子中所有点的行为都非常相似。我们相信这对于几乎所有室外测量的激光雷达点云都是正确的，因为所有移动的交通参与者都需要占用一些场地。

此外，大多数激光雷达系统的光束不向上。请注意，虽然我们的网络架构是专门用于这种方式的，但我们的损失框架适用于任何3D场景流预测不需要假设2D流动。输出解码器为了规范和改进静态场景中的流量预测，将其分类为still点聚合为单个相关的刚性运动测程变换Tr∈R4×4。

我们使用kabch算法[17]采用奇异值分解计算可微Tr值。每个点的权重wi每个流量矢量预测决定最终结果Tr影响程度。我们首先应用信度对数sigmoid激活它们，然后根据分类对数掩码它们。然后，我们将所有权重整合为1，以确保值的稳定性。

置信度logits只通过计算Tr接受梯度更新，是端到端训练，无需进一步监督

图2 对KITTI-SF定性比较场景的方法。AccR流量的准确估计是蓝色的，不准确的预测是红色的。从左到右：PointPWCNet (PPWC)， PoseFlowNet (PF)， Ours

实验结果

对于传

图3左:地面真实运动分割，右:预测动态，移动概率更高更亮

点击阅读原文，本文下载链接即可获得。

本文仅进行学术分享。如有侵权行为，请联系删除。

3D视觉车间精品课程官网：3dcver.com

1.自动驾驶领域的多传感器数据集成技术

2.自动驾驶领域3D点云目标检测全栈学习路线！(单模态多模态/数据代码)
3.彻底了解视觉三维重建：原理分析、代码解释、优化和改进
4.中国第一门面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码解释
6.彻底理解视觉-惯性-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底了解基础LOAM框架的3D激光SLAM: 从源代码分析到算法优化
8.室内外激光彻底分析SLAM关键算法原理、代码和实战(cartographer LOAM LIO-SAM)

9.从零开始建造一套结构光3D重建系统[理论源码实践]

10.单目深度估计方法:算法梳理和代码实现

11.在自动驾驶中部署深度学习模型

12.相机模型及标定(单目) 双目鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

SLIM：自监督点云场景流与运动估计（ICCV 2021）

相关文章