锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

强化学习下的无人驾驶决策技术

时间:2022-10-12 16:30:00 1207g传感器保真

本文转自:加强无人驾驶决策技术的学习 - JavaShuo

转载:说实话?一天学会了自动驾驶-强化学习在自动驾驶中的应用 - JavaShuo

制造真正的自动驾驶汽车(即在任何要求的环境中安全驾驶)的关键是更加关注其软件的自学能力。换句话说,自动驾驶汽车首先是人工智能问题,需要非常具体的机器学习和开发技能。强化学习是机器学习的重要分支,是多学科、多领域交叉的产物,其本质是解决决策(decision making)问题是自动决策,可以连续决策。今天,人工智能头条将向您介绍一个在自动驾驶中加强学习的应用案例,无需 3D 地图不需要规则,让汽车从零开始学习如何在20分钟内自动驾驶。

前言

(译者按)强化学习建立环境模型,学习未知环境的最佳策略。强化学习具有以下特点:

  • 没有监督数据,只有奖励(reward)信号;

  • 奖励信号不一定是实时的,但很可能是延迟的,有时甚至是很多;

  • 时间(序列)是一个重要因素;

  • 当前智能体的行为影响后续接收到的数据。

有监督学习提前给你一批样本,告诉你哪些样本是好的,哪些是坏的(样本标记信息),并通过学习这些样本来建立对象的模型和策略。在强化学习中,没有人提前告诉你在什么状态下应该做什么,只是反思以前的行动是否正确学习。从这个角度来看,可以认为强化学习是监督学习,有时间延迟标记信息。

在许多其他机器学习算法中,学习器学习如何做,强化学习是学习哪些行动可以在特定情况下获得最大的回报。

简而言之,强化学习是在获得样本的同时学习的方式。获得样本后,更新模型,使用当前模型指导下一步行动。下一步行动获得奖励后,更新模型,迭代重复,直到模型收敛。

强化学习广泛应用于直升机特技飞行、经典游戏、投资管理、发电站控制、机器人模仿人类行走等。

英国初创公司 wayve 最近发表了一篇文章 Learning to drive in a day,阐述了强化学习在自动驾驶汽车中的应用。Wayve英国自动驾驶汽车公司是由两位剑桥大学机器学习博士创办的,正在建立端到端机器学习算法,声称使用的方法不同于大多数自动驾驶思维。具体来说,该公司认为,制造真正自动驾驶汽车的关键在于软件的自学能力,而其他公司使用更多的传感器无法解决问题,需要更好的协调。

自动驾驶的人工智能包括感知、决策和控制。

感知是指如何通过摄像头和其它传感器的输入来分析周围环境的信息,例如有哪些障碍物、障碍物的速度和距离、道路的宽度和曲率等。而知模块不可能完全可靠。Tesla 无人驾驶事故是在强光环境下感知模块故障造成的。强化学习可以做到,即使在某些模块失效的情况下也能做出稳妥的行为。加强学习可以更容易地学习一系列的行为。成功驾驶需要一系列正确的行为。如果只标记数据,学习到的模型每时每刻都会偏移一点,最终可能会偏移很多,产生毁灭性的后果。强化学习可以学会自动纠正偏移。

自动驾驶的决策是指如何控制给定感知模块分析的环境信息,以实现驾驶目标。例如,汽车加速、减速、左转、右转、换道、超车是决策模块的输出。决策模块不仅需要考虑汽车的安全性和舒适性,以确保尽快到达目标地点,而且还需要确保乘客的安全。因此,一方面,决策模块需要长期规划驾驶计划,另一方面,它需要预测周围车辆和行人的行为。此外,无人驾驶决策模块对安全性和可靠性有严格的要求。现有的无人驾驶决策模块通常是根据规则构建的。虽然基于规则的构建可以应对大多数驾驶情况,但基于规则的决策系统不能列出驾驶中可能出现的各种紧急情况。我们需要一个自适应的系统来处理驾驶环境中的各种紧急情况。

现在,让我们来看看 Wayve 自动驾驶汽车的解决方案有哪些新颖之处?

从零开始学习如何通过试错学习自动驾驶

还记得小时候学骑自行车的场景吗?又兴奋又焦虑。这可能是你第一次坐在自行车上,踩踏板,大人跟着你,准备在你失去平衡的时候帮助你。经过一些摇摆不定的尝试,你可能会试图保持几米的平衡。几个小时后,你可能会在公园里的砾石和草地上飞驰。成年人只会给你一些简短的提示。你不需要密集的公园 3D 不需要在头上安装高保真激光摄像头。在自行车上保持平衡不需要遵循一长串的规则。成年人只是为你提供了一个安全的环境,让你学会如何根据你所看到的来决定你的行为,从而成功地学会骑自行车。

如今,自动驾驶汽车已经安装了大量的传感器,并通过缓慢的开发周期被告知如何通过一系列精心设计的规则驾驶汽车。在这篇文章中,我们将回到基础,让汽车从零开始学习如何学习自动驾驶,就像你学习骑自行车一样。

看看我们做了什么:只用了 15~20 在几分钟内,我们可以教一辆汽车从零开始沿着车道行驶,这只能作为安全驾驶员接管时的培训反馈。

译注:试错(trial and error)是解决问题、获取知识的常用方法。这种方法可以看作是一种简单的解决问题的方法,与使用洞察力和理论推导的方法正好相反。在试错过程中,选择可能的解决方案应用于待解决问题。如果验证失败,选择另一个可能的解决方案,然后尝试。当其中一种尝试解法产生正确的结果时,整个过程就结束了。

就像学习骑自行车一样,只有一种方法:试错。虽然很简单,但这种思想实验突出了人类智力的一些重要方面。对于某些任务,我们使用试错方法;对于其他任务,我们使用计划方法。类似的现象也出现在强化学习中。根据强化学习,实证结果表明,有些任务更适合无模型(试错)方法,而另一些更适合基于模型的(规划)方法。

无需密集 3D 地图,不需要手写规则

这是自动驾驶汽车在线学习的第一个例子,每次尝试都会让它变得更好。那么,我们是怎么做到的呢?

我们采用了无模型深度强化学习算法(深度确定性策略梯度:deep deterministic policy gradients,DDPG)解决车道跟踪问题。我们的模型输入是单目镜摄像头图像。我们的系统迭代了探索、优化和评估三个过程。

译注:DDPG,由DeepMind的Lillicrap 等于 2016 全称为:Deep Deterministic Policy Gradient,整合深度学习神经网络DPG战略学习方法。而 DPG 是由 DeepMind 的 D.Silver 等人在 2014 年提出的: Deterministic Policy Gradient,即确定性行为策略。在此之前,业界普遍认为环境模型与环境模型无关(model-free)在 2014 年的 DPG 论文中,D.Silver 通过严格的数学推导,证明了 DPG 的存在。DDPG 相对于 DPG 核心改进是:以卷积神经网络为战略函数μ 和 Q 函数模拟,即战略网络和 Q 网络;然后用深度学习来训练上述神经网络。

DDPG 算法是利用 QDN 扩展 Q 学习算法的思路是正确的 DPG 改造方法,提出一种基于行动者的评论家(Actor-Critic,AC)该算法可用于解决连续动作空间上的算法 DRL 问题。

可参考论文《Continuous control with deep reinforcementlearning》(https://arxiv.org/abs/1509.02971)

无模型的 DDPG 学习方法较慢,但最终优于基于模型的方法。

我们的网络架构是一个有深度的网络 4 个卷积层和 3 完全连接的层总共略低于 10k 参数。现有技术的图像分类系统结构有数百万个参数进行比较。

所有的处理都是汽车上的图形处理单元(GPU)上执行的。

在危险的真实环境中使用真正的机器人会带来很多新的问题。为了更好地理解手头的任务,找到合适的模型架构和超参数,我们进行了大量的模拟测试。

 

上组动图所示,是我们的车道跟随不同角度显示的模拟环境的示例。这个算法只能看到驾驶员的视角,也就是图中有青色边框的图像。在每一次模拟中,我们都会随机生成一条弯曲的车道,以及道路纹理和车道标记。智能体会一直探索,直到模拟终止时它才离开。然后根据手机到的数据进行策略优化,我们重复这样的步骤。

在安全驾驶员接管之前,汽车行驶的距离与模拟探索的数量有关。

我们使用模拟测试来尝试不同的神经网络架构和超参数,直到我们找到一致的设置,这些设置在很少的训练集中,也就是几乎没有数据的情况下,始终如一地解决了车道跟随的问题。例如,我们的发现之一,是使用自动编码器重构损失训练卷积层可以显著提高训练的稳定性和数据效率。

▌ 潜在的影响力

我们的方法的潜在影响是巨大的。想象一下,部署一支自动驾驶车队,使用一种最初只有人类司机 95% 质量的驾驶算法会怎么样。这样一个系统将不会像我们的演示视频中的随机初始化模型那样摇摇晃晃地行驶,而是几乎能够处理交通信号灯、环形交叉路口、十字路口等道路情况。经过一天的驾驶和人类安全驾驶员接管的在线改进后,系统也许可以提高到 96%。一个星期以后,提高到 98%。一个月以后,提高到99%。几个月以后,这个系统可能会变得超人类,因为它从许多不同的安全驾驶员的反馈中受益得以提高。

今天的自动驾驶汽车仍停留在良好的状态,但性能水平还不够好。在本文中,我们为第一个可行的框架提供了证据,以便快速改善驾驶算法,使其从不堪造就到可安全行驶。通过巧妙的试错法快速学习解决问题的能力,使人类拥有具备进化和生存能力的万能机器。我们通过各种各样的模仿来学习,从骑自行车到学习烹饪,我们经历了很多试错的过程。

DeepMind 向我们展示了深度强化学习方法可以在许多游戏中实现超人类的表现,包括围棋、象棋和电脑游戏,几乎总是比任何基于规则的系统表现的更好。我们发现,类似的哲学在现实世界中也是可能的,特别是在自动驾驶汽车中。有一点需要注意的是,DeepMind 的 Atari算法需要数百万次试验才能完成一个任务。值得注意的是,我们在不到 20 次试验中,一贯都学会了沿着车道行驶。

结束语

20 分钟,我们从零开始,学会了沿着车道行驶。想象一下,我们一天可以学到什么?

Wayve 的理念是构建机器人智能,不需要大量的模型、花哨的传感器和无尽的数据。我们需要的是一个聪明的训练过程,可以快速有效地学习,就像我们上面的视频一样。人工设计的自动驾驶技术在性能上达到了令人不满意的玻璃天花板。Wayve 正视图通过更智能的机器学习来开发自动驾驶功能。

原文链接:

https://wayve.ai/blog/learning-to-drive-in-a-day-with-reinforcement-learning

论文链接:

https://arxiv.org/pdf/1807.00412.pdf

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章