锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

ScePT: 为规划的场景一致和基于策略轨迹预测

时间:2022-09-21 04:00:00 各种常见的离散传感器mtp系列传感器

点击上方“3D视觉车间,选择星标

第一时间送达干货

ff345da27d1de3009b3d58444d7c17c1.jpeg

作者丨黄浴

来源丨计算机视觉深度学习和自动驾驶

arXiv2022年6月18日上传的论文ScePT: Scene-consistent, Policy-based Trajectory Predictions for Planning作者来自Nvidia和斯坦福大学。

轨迹预测是自动驾驶系统的关键功能,它与无控智体共享一个环境,其中一个突出的例子是自动驾驶车辆。目前,大多数预测方法并不强制场景的一致性,即场景中不同智体的预测轨迹之间存在大量的自碰撞。此外,许多方法生成每个智体的单独轨迹预测,而不是整个场景的联合轨迹预测,这使得下游规划变得困难。

提出基于战略规划的轨迹预测模型ScePT,该模型可生成适用于独立系统运动规划、精确、场景一致的轨迹预测。它明确地强制了场景的一致性,并学习了可用于限制预测的智体交互策略。多个真实行人和自主车辆数据集的实验表明,ScePT匹配最先进的预测精度,显著提高场景一致性。ScePT有能力与下游事故规划器一起工作。

代码是开源 https://github.com/nvr-avg/ScePT


对非受控智体未来运动的预测对自动化系统的安全性至关重要。一个突出的例子是自动驾驶汽车,它与其他道路用户(如车辆、行人和骑自行车的人)共享道路。由于人类行为是著名的不确定性和不一致性,很难预测任务。例如,众所周知,人类在驾驶环境中表现出多模态行为,可以同时保持当前车道,改变车道,让步或在未来超车。

因此,人类驾驶行为预测的早期工作不够准确,不能用于自动驾驶车辆的运动规划。为了解决这个问题,许多研究人员一直在开发现象学(phenomenological)方法,即从大量数据中学习智体行为,效果显著。

轨迹预测模型的典型特征包括高预测精度、快速推理速度和标定不确定性。随后当预测被下游规划器使用时,以下特征对整体系统性能也至关重要:

  • 兼容性:场景中不同智体的轨迹预测应与单个联合预测相兼容。特别是,预测轨迹之间的碰撞应该是罕见的,因为碰撞本身在现实中是罕见的。

  • 可跟踪的联合轨迹预测:如前所述,智体的未来运动可以是多模态的。在由多个智体组成的场景中,如果为单个节点生成多模式预测,则下游运动规划器需要考虑这些轨迹预测的所有组合。随着智体数呈指数增长,规划器很快就会不知所措。或者运动计划者可以采取保守的方法来避免所有预测的轨迹,但往往以牺牲计划性能为代价(例如,如果所有计划似乎都发生冲突,汽车将保持静止)。因此,希望所有智体的多模态联合预测模态数量有限但完全具有代表性,使下游规划器能够实施应急规划(contingency planning)。

  • 时间一致性:对于下游规划器,体育规划在很大程度上取决于预测结果。为了确保平稳的体育规划,如果场景本身在此期间没有剧烈变化,则预测后续时间不应发生重大变化。因此,应避免进行数据采样,因为预测可能会随着时间的推移而发生重大变化,导致生成的体育规划不连续,这可能会影响规划的性能和安全性。

  • 制约(conditioning):限制是固定一个或多个智体未来轨迹并预测其他智体未来轨迹的最终分布。限制预测有助于理解运动计划(基于自动驾驶智体的运动计划)和智体交互。限制用于一些现有的工作,但需要显式建模。理想情况下,限制分布可以在不改变模型结构的情况下产生。

ScePT是一种离散CVAE(Conditional Variational Auto Encoder) 该模型是场景中多个智体输出的联合轨迹预测,推理每个智体的运动策略及其周围智体的影响,以确保其预测中高度的场景一致性。

如图是ScePT输出描述包括每个智体的多模态轨迹预测:不同的线类型(实线、虚线、点线)表示不同的场景一致性联合轨迹预测模式;场景中的智体分为高度互动的小组,其中一个用黄色虚线显示。

节点和智体,可以是车辆、行人、自行车手或其他类型的道路使用者。用s表示智体的状态,e表示两个节点之间的边缘。因为模型是CVAE,遵循CVAE标准术语,即x表示限制变量,y表示观测变量,z表示隐藏的潜变量。

为保持场景一致性,ScePT它是一种以场景为中心的模型,即其输出预测是场景中多个节点的联合轨迹。给定具有多个节点的场景,生成时空场景图,其中节点表示智体,边缘表示智体之间的交互。根据恒速模型,将智体的近期未来距离作为交互的替代品向前传播每个节点。两个智体之间的近期未来距离被定义为

然后定义场景图邻接矩阵

通过相邻矩阵确定场景图不同于将所有节点保持在单图模型中,而是将场景图划分为最大规模(固定为参数)的小组(cliques)。这样做是为了减少乘积潜空间(product latent space)该空间随图的大小呈指数级扩展,如果太大,预测精度会降低。

虽然加权图分为NP-hard但是有很多现成的算法,因为它,我们使用了强大的性能Louvain算法。划分后,小组的每个节点都被连接起来(尽管距离阈值不同)。然后收集节点历史并提供给它ScePT。如果可用,还使用地图信息和最近车道的相对位置。

通过小团体、智体状态和边缘(智体之间的相对状态)历史LSTM在特征向量中编码。编码器建模联合潜分布,而不是将每个节点与独立于邻居的潜变量分布相关。具体来说,每个智体都配备了基数为N的离散潜变量zi,使小团的联合潜变量仅为z=[z1,z2,…zn]。这意味着联合潜空间的基数随着小团中节点数的指数增加,这也是限制小团规模的原因。

ScePT将联合潜变量的分布表示为一个Gibbs由节点因子和边缘因子组成的分布,

其中,xi是节点i的状态历史,fi它是节点i的节点因子,前馈神经网络将xi和zi映射为实数。fij是节点对(i,j)边因子,也是网络的前馈,E是边缘集。

对数似乎可以通过构造因子图来实现(factor graph)为了计算,因子图是一个可变节点和因子节点bipartite graph。如图所示,一个因子图例子:

归一化是通过总结z的所有可能估值来完成的(因为z是离散的)。虽然联合潜空间的基数和小团体的大小呈指数变化,但概率分布通常只集中在少数(<10)个模态。

受运动规划过程的启发,解码器设计将每个智体视为运动规划器,并模拟其规划过程以输出轨迹预测。典型的运动规划器采用参考轨迹,即所需的运动,并进行调整,以满足约束(如避免碰撞),并最小化指定的成本函数。受此过程的启发,战略网络(policy network)如图所示:

战略网络的输入是小团节点的现状和参考轨迹Sdes和小团潜变量z。参考轨迹以状态历史编码、地图编码和潜变量z为输入的GRU网络生成。然后将当前节点状态与参考轨迹进行比较,获得跟踪误差和局部坐标系的下一个路点s 。

为了建模边缘,将两个节点状态匹配在一起,并将状态对馈发送到预编码网络(全连接),然后输入LSTM单元。根据图结构,每个节点可能有不同数量的邻居。为了编码可变邻居,注意网络(attention network)将节点的所有边缘压缩成单个观编码。然后连接观测编码、潜变量和跟踪误差,并将其馈送到全连接动作网络(action network),控制动作预测获得节点a。

假设节点的动力学是输入状态和控制的微分函数,适用于常见的智体类型,如车辆(如Dubin汽车模型)和行人(单积分器或双积分器)。然后将状态预测反馈到状态向量,并重复过程。

ScePT如图所示:编码器采用LSTM编码状态、边缘历史、CNN局部编码图,并在小组潜变量中产生离散Gibbs分布;潜变量与状态历史和图形编码一起使用GRU为每个节点生成所需的轨迹;然后将所需的轨迹和潜变量传输到战略网络,以获得闭环轨迹预测。

限制预测是一种重要的能力。在之前的工作中,在编码器中,显式编码受到汽车未来轨迹的限制。然而,假设只有一个智体可以受到限制,这使得驾驶模拟等用例变得困难,因为每对智体都需要训练显式限制模型。相比之下,PRECOG未来的限制预测只能通过设置汽车的潜变量来产生。

同样,ScePT由于它直接学习智体的交互策略,因此不需要任何结构变化来限制预测。只需固定限制智体的轨迹,并输出小组中其他智体的轨迹预测,即可生成限制预测。由于固定的未来轨迹不会落入任何潜在模式,可以从Gibbs删除任何与限制节点相关的因素。

标准CAVE训练程序:

对于似然的损失,假设每个模式的未来轨迹噪声都是高斯,那么就会得到L2-norm损失如下:

添加碰撞惩罚,惩罚不匹配预测的正则化,以及其他类型的正则化,如乘坐舒适性,因为节点动力学清楚地包含在战略网络中。

虽然可以枚举离散潜空间,但Z基数随着小团体规模呈指数增长。因此,有时无法对所有模态进行解码。为了解决这个问题,采用多样性采样(diversity sampling)。具体来说,采用Ng最高概率模太多,从其他模式随机抽样Nr个模态。当Z总基数小于时Ng Nr选择所有模式。然后将样本概率归一化,使预期损失不会崩溃为0。

用于轨迹预测的离散CVAE模态崩溃很容易发生(mode collapse),也就是说,解码器倾向于在不同的模式下预测类似的轨迹,因为成本似乎是L2误差加权和,平均预测可能是局部最小值。模态崩溃通过多种方法解决,如多轨迹预测(MTP)损失、验知识、以及通过真值类别分配模态。这里的方法保持预期损失函数,但引入CVaR作为一种新方法来避免模态崩溃。

风险中制约价值(Conditional Value at Risk,CVaR)是金融和优化中常用的风险度量,定义为

其中P是X的概率分布,α调整风险-反对的度。CVaR是分布P下状态x最低α百分位的平均。在α的极限→ 0产生X的本质下确界,α=1产生E[X]。

受对偶形式的启发,将公式(4)的期望损失修改为CVaR是分布P下状态x的最低α百分位值的平均值。在α的极限处→ 0产生X的必要下确界(essential infimum),α=1产生E[X]。

在公式(5)中的第二行是CVaR的对偶形式,可以理解为在P′必须是适当分布的约束下,将分布P转移到P′,对于所有x,P′(x)≤ α1 P(x)。受对偶形式的启发,将公式(4)中的期望损失修改为

这种CVaR损失不会迫使所有而只有已经接近的模态,与真值相匹配,这样直接防止模式崩溃。与通常关注最坏结果的风险测度常见用法相比,CVaR关注最佳预测,保持输出多样性。在训练过程中,α用于权衡模型对编码器精度和多样性的关注。除了合并CVaR外,这里用贪婪算法对乘积潜空间进行不同采样。

为证明ScePT与下游规划器集成的性能,将其预测反馈给基于下游MPC的规划器。MPC规划器考虑了多模态轨迹预测,并通过分支执行应急规划(contingency planning)。给定M个联合轨迹预测,MPC规划M个对应的自车轨迹,并附加约束,即所有M个自车轨迹的第一个控制输入必须相同。

公式(7)是一个非线性优化问题,用IPOPT求解。作为预测和规划一起运行示例,M=3,未优化Pytorch预测代码在不到240ms的时间内执行,MPC规划运行时间不到60ms,所有这些都在CPU上跑。


实验结果如下:

如图显示将ScePT预测与下游MPC规划器相结合的结果,可视化预测模态及其产生的自运动规划:黑车是自车;蓝车是自小团之外的相邻车辆;青色轨迹是规划轨迹(3种模态);绿车和棕车是自小团内的相邻车辆;绿色和棕色轨迹是预测轨迹(前3种模态);品红色圆是行人;红线是自小团内的连接节点。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章