锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

自动驾驶汽车如何解决复杂交互问题?清华联合MIT提出M2I方案

时间:2023-11-21 04:07:01 2202传感器

作者丨孙桥

来源!机器之心

来自清华、MIT研究小组提出了一种基于自我监督学习的方法,允许自动驾驶模型从现有的轨迹预测数据中学习正确判断冲突中的礼让关系。

当自动驾驶汽车在路上时,不可避免地需要在路上学习一些潜规则。自动驾驶系统需要观察文字和颜色,及时发现什么时候应该减速,什么时候应该发现其他人正在尽快加速通过。由于道路环境的复杂性,许多新手司机可能无法做出适当的判断。

这种复杂性使得基于规则的方法很难在不相互冲突的情况下覆盖所有情况。清华大学的研究团队提出了一种基于自我监督学习的方法,从现有的轨迹预测数据中学习各种礼仪,正确判断冲突中的礼让关系。本研究将预测与复杂交互相关的关系 Waymo Interactive Motion Prediction 测试数据集并提出 M2I 使用预测的关系来预测场景级别的交互轨迹。

清华大学孙桥和MIT清华黄昕合作完成MARS Lab赵行老师给予指导。

d8bf7c0890502a64469adb39943dfe71.png

  • 论文地址:https://arxiv.org/abs/2202.11884

  • 项目地址:https://tsinghua-mars-lab.github.io/M2I/

轨迹预测是自动驾驶系统的重要组成部分,对自动驾驶车辆的安全驾驶至关重要。轨迹预测模块通常作为识别模块 (Detection) 和跟踪 (Tracking) 下游系统使用现有的高精度地图和周围其他车辆或行人的信息来预测他们未来可能会做什么。轨迹预测系统会以轨迹或热力图的形式输出预测结果,以便下游的规划 (Planning) 系统为自动驾驶汽车本身规划了最合理的下一步决策或轨迹。

尽管大多数轨迹预测方法都是通过 GNN 或基于 Attention 试着学习道路上车辆和行人之间的关系,但这些方法通常面临以下难以克服的挑战:

1. 模型预测的关系是隐藏的,因此缺乏可解释性,很难确定模型是否真的学会了这些关系;

2. 模型预测与最终输出轨迹之间的关系并不统一(如图所示 1 如第一行所示),自然会重叠,不能保证场景级别的合理性;

3. 道路用户的决策有顺序关系,模型预测不能区分逻辑预测顺序,但只能并行预测。

图 1: 轨迹预测方法输出轨迹之间会有碰撞

为了解决这些问题,研究人员提出了一个简单有效的框架 M2I(如图 1 第二行) M2I 框架,您可以快速改造手头的任何现有轨迹预测模型,获得基于一辆车轨迹预测另一辆车轨迹的场景级关系预测能力和轨迹预测能力。使用这两种能力可以确保您的新模型对交互场景有更好的预测效果。

预测多智能体轨迹

让我们先来看看 M2I 整体框架。M2I 由三个模块组成, 如图 2.这三个模块是关系预测模块、单智能体轨迹预测和条件轨迹预测。

图 2: M2I 轨迹预测框架

关系预测

复杂的道路用户之间的关系可以抽象成多种关系,该研究将每对道路用户分种 影响者 (Influencer) 和一个 响应者 (Reactor),将响应者定义为冲突中需要礼让的一方,而影响者是不需要礼让的一方。因此,交互中的轨迹预测问题可以抽象成两个轨迹预测,一个是预测影响者的轨迹,另一个是使用预测影响者的轨迹来预测影响者的轨迹。这种方法保证了两者在场景级别上预测轨迹的一致性,从而最大限度地避免重叠等不合理情况。

那么如何预测谁是影响者,谁是响应者呢?或者谁应该在预测冲突中礼让。本研究提出了从现有数据中集中挖掘时空轨迹交错的方法 Ground Truth 标签法。具体来说,在数据集中,如果任何两个道路用户的轨迹在不同时间交叉,则该方法优先考虑该交叉点的智能体,然后通过的标记为响应者。通过学习自动生成的标签,模型可以学习冲突的先行关系。

本研究使用的关系预测模型是 DenseTNT 的 Trajectory Prediction Head 换成普通分类 Classification Head 通过改造获得。研究人员发现,如果不修改现有模型的其他部分,关系预测的准确性可以达到 90% 以上。对比实验显示,使用准确率越高的关系进行 Conditional Trajectory Prediction 效果越好。

研究人员还将关系预测扩展到多智能身体的关系预测。对于多智能身体,研究成对预测,并将预测结果形成一个向图表示关系,如图所示 3 所示,M2I 关系预测模块可以很好地扩展到多智能体的关系预测。

图 3: 多智能体在复杂场景下的关系预测

轨迹预测

任何常见的轨迹预测模块都可以替换 M2I 框架中的单智能体轨迹预测模块,在该论文的实验中,研究者使用了 DenseTNT 预测单智能体轨迹。对于 Conditional Trajectory Prediction,研究人员修改了 DenseTNT 的 Encoder,影响者未来的轨迹(正在使用) Waymo 数据集中,未来轨迹为 8s,共 80 帧)与其他信息一起编码供模型学习。影响者未来训练轨迹的数据集中 ground truth 单智能过程中,影响者未来的轨迹是单智能模块输出的轨迹。对于 Conditional Trajectory Prediction,这项研究没有修改 Encoder 模型的其他结构。

实验结果

实验结果证明,相比于其他几个在 leaderboard 使用上述方法 M2I 框架的 DenseTNT 模型性能明显优于其他方法。特别是在车辆之间的交互中,使用 M2I 预测在 mAP 与其他模型相比,性能明显提高。

图 4: M2I 在 Interactive Motion Prediction 表现明显优于其他现有方法

该研究还试图使用它 TNT 作为 Backbone。实验结果显示,使用 M2I 框架同样可以帮助 TNT 提高交互场景中的性能,从而证明 M2I 框架可以不限于指定的 backbone。

定性分析显示,使用 M2I 框架结束后,预测轨迹在场景级别上更接近真实的交互轨迹,如图所示 5 所示。

图 5: M2I 更好地了解两辆在场景中互动的车辆应该如何先后转弯

本文仅进行学术分享。如有侵权行为,请联系删除。

干货下载与学习

后台回复:巴塞罗自治大学课件,下载国外大学沉淀3年D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域的经典书籍pdf

后台回复:3D视觉课程trong>即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章