AI总监Karpathy亲自揭秘特斯拉纯视觉系统,还有自动驾驶超算Dojo原型
时间:2022-11-12 22:30:00
来源!机器之心
编辑陈萍、小舟
在 2021 在特斯拉的年度计算机视觉和模式识别会议上 AI 高级总监 Andrej Karpathy 在过去的几个月里,我分享了特斯拉在会议上所做的一些事情 Karpath 阐述了特斯拉在自动驾驶领域的重要性,并介绍了该公司最新的超级计算机。
在自动驾驶领域,传感器问题一直分为视觉和激光雷达。 CEO 伊隆 · 马斯克是一个坚定的视觉派,他多次 diss 认为它的激光雷达「荒谬,注定要失败」。
近日,在 CVPR 2021 在线自动驾驶研讨会(WAD)特斯拉人工智能高级总监 Andrej Karpathy 主题演讲揭示了特斯拉如何训练 100% 的纯视觉自动驾驶神经网络。
在演讲中,Karpathy 谈到特斯拉在过去几个月里所做的事情。首先,他阐明了特斯拉在自动驾驶领域的重要性,并指出:目前「社会交通状况不佳」,指的是这些由金属制成的车辆在人类的控制下以高动能快速行驶——或者就像他所描述的:受人肉(Meat computer use in today’s transportation)控制。
此外,Karpathy 它还透露了该公司最新的超级计算机。该计算机允许汽车制造商放弃雷达、激光雷达等辅助设备,完全依靠高质量的光学摄像头自动驾驶。
Karpathy 阐述了当前交通环境「人类驾驶员」几个简单的事实:
人们通常以 80mph 以1吨左右的速度行驶的汽车可能存在 250ms 反应延迟,司机需要转身使用后视镜检查交通状况,有时他们甚至不能完全集中注意力。此外,调查发现:
世界上每天都有约会 3700 人死于车祸;
运输成本高。
Karpathy 表示:「归根结底是人本身并不擅长驾驶,会造成一些交通事故。我们希望实现交通自动化,并让整个人类社会受益。」
他指出,使用计算机芯片代替人类驾驶在安全和方便方面有很多好处:
同样以 80mph 例如,使用计算机芯片控制驾驶,反应延迟<<100 毫秒,可以进行 360 而且「计算机司机」全神贯注于驾驶。因此,未来自动驾驶将减少交通事故,大大降低交通成本。
特斯拉的独特之处
Karpathy 进一步阐述了特斯拉在自动驾驶方面的独特性:「我们采用循序渐进的方法实现自动驾驶。特别是我们已经有了使用 Autopilot 客户和数百万辆车,Autopilot 软件一直在运行,并改进了一些安全功能,包括 Autopilot 功能。在为客户提供安全和便利的同时,我们的团队正在开发完全自动驾驶(Full Self-Driving,FSD)功能。」
Karpathy 演讲中播放了一段演示自动紧急制动的视频。当司机经过十字路口时,行人突然出现了。汽车检测行人后,启动目标检测,猛踩刹车,避免碰撞。
下一个演示是一个交通管制警告的例子,显示司机分心了。他可能在看手机,没有因为前面的红绿灯变红而刹车。汽车检测到红灯,所以它发出警告,司机开始减速。
接下来的两个视频是踏板误踩补救机制 (Pedal Misapplication Mitigation,PMM) 例子。在第一个例子中,司机停下来试图转弯。然而,他犯了踩油门而不是刹车的错误。此时,自动驾驶系统启动,检测行人,突然刹车。
Karpathy 最后一个场景是另一个司机试图停下来。司机向右转,以为他在踩刹车,但他踩了油门,系统启动了刹车,防止了事故。
Karpathy 它还展示了特斯拉在旧金山自动导航的另一段视频,指出他展示了所有的预测——你可以看到的线条和物体表明系统也看到了同样的东西。
这些都说明计算机控制的自动驾驶能够比人类驾驶员做得更好,Karpathy 说:「作为工程师,我们肯定会推广自动驾驶。对我们来说,零干预驱动实际上是相当传统的,尤其是在人口稀少的地区。」
值得注意的是,特斯拉不同于其他自动驾驶公司,他们使用纯视觉系统。
视觉 VS 雷达,该选哪一个?
「这是一个在十字路口左转的人 Waymo,为什么这个视频如此令人印象深刻?我想强调的是,虽然视觉和雷达看起来是一样的——有一辆车在十字路口左转,但就系统的可扩展性而言,情况非常不同。」Karpathy说道。
因此,该行业的许多竞争方法都采用了这种激光雷达 高清地图的方法。
Karpathy 解释说,雷达系统必须使用激光雷达传感器提前绘制环境地图,并制作高清地图。它们还必须插入所有的车道,红绿灯,车辆需要定位在地图上才能驾驶。
而特斯拉则不同,Lidar 不需要高清地图,专注于相机的纯视觉感知方案:
雷达传感器已经广泛地应用在很多乘用车和卡车当中,通过无线电波技术,即便在能见度差的情况下也能检测快速接近的物体,是为汽车驾驶安全提供保障的传感器之一。但特斯拉表示,北美市场 Model 3 和 Model Y 辅助驾驶车辆 AutoPilot 在系统中,雷达传感器的使用将被放弃,集中在相机视觉上。他们将依靠摄像头视觉系统和神经网络处理「Autopilot、全自动驾驶(FSD)还有一些主动安全功能。」
Karpathy 说:「我们采用的方法主要是基于视觉和依赖 8 周围的车身,可以覆盖 360° 的摄像头。所以当我们第一次来到十字路口时,我们必须弄清楚车道在哪里,它们是如何连接的,交通灯在哪里,什么是相关的,什么交通灯控制什么车道,一切都发生在当下,发生在汽车上,我们以前没有高清地图和其他信息。」
Karpathy 这意味着这是一个更可扩展的解决方案。基于此,他们需要一个能够预测速度、加速度等信息的神经网络。首先,他们需要一个满足以下条件的数据集:
大型数据集包含数百万视频;
预处理后,高质量数据集标签多样;
该数据集丰富多样,包括一些边缘样例。
Karpathy 进一步介绍了特斯拉的数据引擎:
最后,他们得到了600万个视频,包括100万个视频 1亿对象标签的数据集将继续改进和更新。
接下来,研究团队需要在这个超大型数据集上构建一个神经网络。这个神经网络将是一个通用的视觉系统,原则上可以部署在任何需要的地方。这也是特斯拉研发团队正在做的事情。
特斯拉可以避免使用上述方案「突然减速」问题和基于雷达的系统信号中断,提供稳定的驾驶状态。
Karpathy 解释说,特斯拉在过去几年里建立了一个非常好的视觉系统,比其他传感器都要好。摄像承担了大部分的感知工作,现在特斯拉正在移除一些传感器,因为它们正在成为不必要的辅助设备。
「三周前,我们开始运送完全没有雷达的汽车。我们离开雷达,只靠视觉驾驶这些车。正如伊隆在推特上所说,我们这样做的原因,『当雷达和视觉不一致时,你相信哪一个?视觉的精确度要高得多,因此,与其进行传感器融合,不如在视觉方面加大投入。』」
在演讲中,Karpathy 还展示了特斯拉完全自动驾驶(FSD)芯片:
此外,Karpathy 还解释了特斯拉的超级计算机集群,特斯拉即将推出的新超级计算机 Dojo 的「先行版本」。特斯拉声称新集群有一些疯狂的参数,应该使其成为世界第五大计算机:
720 个 80GB 8x A100 节点(共 5760 个 GPU);
1.8 EFLOPS(720 节点 * 312 TFLOPS-FP16-A100 * 8 gpu / 节点);
10 PB「热层」NVME 存储 @ 1.6 TBps;
总交换容量为 640 Tbps。
详见原视频:https://www.youtube.com/watch?v=NSDTZQdo6H8
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~