锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

《强化学习周刊》第22期:ICRA 2021-2022强化学习的最新研究与应用

时间:2022-11-02 23:30:00 传感器rl70ce

作为人工智能领域的研究热点之一,其研究进展和成果也引起了广泛关注。并且诸多研究成果发表于ICRA 在2021-2022年学术会议上,为了帮助研究人员了解该领域的相关进展和信息,智源社区结合该领域的内容,撰写了第22期《强化学习周刊》。整理了这个周刊ICRA 最新的论文推荐和新工具,2021-2022中加强学习领域相关,供大家使用。
本周刊采用社区合作的模式。欢迎感兴趣的朋友参与我们的工作,共同促进学习社区的共享、学习和交流活动。您可以扫描文章末尾的二维码,以加入强化学习社区组。
贡献者:李明、刘青、刘元、小胖

论文推荐
近年来,强化学习取得了显著成绩,其应用于各个领域的研究也取得了显著进展。人工智能顶会ICRA 2021-2022年发布了一系列强化学习进展,例如,将强化学习应用于实时联合概率交通预测、高效强化学习样本、基于模型的元强化学习、基于对抗强化学习领域自适应的混合模拟器识别、基于深度强化学习加速机器人技能的混合模拟器识别Recovery RL相关理论及其最新应用等。

本次推荐16篇ICRA 2021-2022强化学习领域的相关论文,主要涉及多模态互动信息,基于加强学习应用于规划、控制和模拟的实时联合概率交通预测,基于激光雷达端到端自动驾驶和比较深度加强学习,基于鲁棒自我监督深度加强学习 (MuMMI) 培训、基于模型集成探索和开发的高效强化学习样本、基于多任务学习的无重置强化学习:学习基于模型的灵活操作行为、基于模型的元强化学习,无需人工干预SimGAN:混合模拟器识别和模型预测演员-评论家,通过对抗增强学习的自适应,通过深度加强学习,加快机器人技能的获取Recovery RL:安全强化学习等。通过学习的恢复区。
标题:PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation(PredictionNet:实时联合概率交通预测用于规划、控制和模拟)
简介:预测交通代理的未来运动对于安全高效的自主驾驶至关重要。为此,本文提出PredictionNet,这是一个深度神经网络(DNN),用于预测周围所有交通智能体的运动和运动ego车辆运动。所有的预测都是概率性的,光栅允许任何数量的智能身体从上到下简单地表示。以车道信息的多层地图为条件,网络在单次传输中联合输出所有智能主体(包括ego车辆的未来位置、速度和可追溯性。然后从输出中提取轨迹。该网络可用于模拟真实流量,并在流行基准上产生竞争力。将其与运动规划/控制子系统相结合,已被用于成功控制数百公里的真实世界车辆。该网络是嵌入式的GPU由于输入表示的选择,系统显示出良好的泛化(跨感官模式和位置)。此外,本文还证明了强化学习的使用(RL)扩展DNN,它能更好地处理罕见或不安全的事件,如攻击性机动性和碰撞。
论文链接:https://www.aminer.cn/pub/616d206a6750f84ef29b03fe?f=cs

标题:Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning(Carl-Lead:基于激光雷达的端到端自动驾驶和对比深度强化学习)
简介:自动驾驶在不受控制的十字路口具有挑战性,应仔细考虑动态屏蔽和其他车辆的不确定性。传统方法是启发式的,基于手工设计的规则和参数,但在新情况下的扩展性很差,在所有可预见的场景中,它们都需要高昂的人力成本来设计和维护规则。深度加强学习(DRL)在城市驾驶场景中展前景。然而,DRL 样本效率低,以前的大多数研究假设完美的观察结果,如地面的真实位置和车辆的运动,而不考虑噪音和屏蔽,这可能是战略部署过于强硬的假设。本文使用 DRL 训练基于激光雷达的端到端驾驶策略,这些策略自然会考虑部分观察。学习作为辅助任务,通过进一步利用无监督对比来提高样本效率。比较评估结果表明,该方法比最先进(SOTA)基于激光雷达的端到端驱动网络实现了更高的成功率,在安全性和效率之间取得了更好的平衡,并比基线更好地推广到新场景。
论文链接:https://www.aminer.cn/pub/6147fba55244ab9dcb1b54e9?f=cs

标题:Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning(基于鲁棒自监督深度加强学习的多模态互信息 (MuMMI) 训练)
简介:该工作侧重于使用多个可能不可靠的传感器来学习有用和强大的深度世界模型。本文发现,目前的方法不足以鼓励模式之间的共享;这可能导致下游任务性能差,过度依赖特定传感器。本文作为一种解决方案,提出了新的多模态深度潜在状态空间模型,利用互信息下界进行训练。关键创新是一种特殊设计的密度比估计器,它鼓励潜在代码之间的一致性。这种方法在多模态中自然会在多模态中使用 MuJoCo 基准和挑战性 Table Wiping 学习策略(自我监督)。实验表明,该方法明显优于最先进的深度强化学习方法,特别是在缺乏观察的情况下。
论文链接:https://www.aminer.cn/pub/60e563fcdfae54c432543fdd?f=cs

标题:Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation(基于模型集成探索和开发的高效强化学习样本)
简介:基于模型的深度强化学习在需要高样本效率的各个领域取得了成功,如围棋和机器人技术。然而,仍然存在一些问题,如有效地探索学习更准确的动态模型、评估学习模型的不确定性和更合理地使用模型。本文提出了缓解这些问题的方法 MEEE,由乐观探索和加权开发组成的模型集成方法。本文中的智能体首先生成一组动作候选人,然后寻找兼顾预期回报和未来观察新颖性的最佳动作。根据模型的不确定性,将不同的折扣权重分配给想象中的过渡元组,以防止模型预测误差agent训练中的传播。几项具有挑战性的连续控制基准任务的实验表明,该方法优于其他无模型和基于模型的最先进方法,特别是在样本复杂性方面。
论文链接:https://www.aminer.cn/pub/60e436d5dfae54001623bfcd?f=cs

标题:Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention(基于多任务学习实现无重置强化学习:学习灵巧的操作行为,无需人工干预)
简介:加强学习 (RL) 算法原则上可以通过从现实世界中通过反复试验收集的大量数据中学习来获得复杂的机器人技能。然而,大多数 RL 算法采用精心设计的设置来收集数据,需要人工监督和干预,以提供场景重置。本文适当选择多任务RL设置实际上减少了无重置学习的挑战,最少需要额外的机器。由于不同的任务组合可直接解决无重置问题,因为不同的任务组合可以用来重置其他任务。通过一起学习多个任务并适当地对其进行排序,可以有效地一起学习所有任务而无需重置。多任务学习可以有效地将无重置学习计划扩展到更复杂的问题。本文通过简单的多任务学习方案解决了无重置学习问题,展示了学习解决硬件和模拟中复杂灵活操作任务的有效性。研究结果表明,在没有任何人工干预的情况下使用 RL 在现实世界中学习灵巧操作行为的能力。
论文链接:https://www.aminer.cn/pub/6082a0e891e0118612e3f5cf?f=cs

标题:DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies(DisCo RL:加强对一般政策的有条件分配)
简介:强化学习能否用于学习能够执行各种任务并产生灵活和可重复使用技能的通用策略?原则上,上下文策略提供了这一功能,但上下文的表达决定了概括性和表达性。分类上下文不能推广到新任务。目标条件策略可以概括,但不能捕获所有可能需要的任务。本文提出了适合上下文策略的下文策略的通用任务。具体的分配类别选择使我们能够权衡表达能力和学习能力。通过分配条件加强学习(DisCo RL)为了有效地学习这些策略,非策略算法。各种机器人操作任务DisCo RL评估发现,对于需要总结到新目标分布的任务,DisCo RL明显优于以前的方法。
论文链接:https://www.aminer.cn/pub/604f1e079e795e5feaac5514?f=cs

标题:Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots(强化学习双足机器人鲁棒参数运动控制)
简介足机器人开发强大的行走控制器是一项艰巨的任务。基于模型的传统运动控制器需要简化假设并仔细建模。任何小错误都会导致控制不稳定。为了解决两足动物运动的这些挑战,本文提出了一个无模型的强化学习框架,用于模拟中训练鲁棒的运动策略,然后将其转移到真正的两足动物身上Cassie机器人中。为了促进从模拟到真实传输,利用域随机化来鼓励战略学习对系统动态变化的鲁棒行为。所学的策略使Cassie能够实施一组多样化的动态行为,比基于学习的传统控制器和现有方法更强大。
论文链接:https://www.aminer.cn/pub/6061a9d691e0112c88b9834e?f=cs

标题:Model-Based Meta-Reinforcement Learning for Flight With Suspended Payloads(基于模型的元强化学习具有悬浮有效载荷)
简介:运输自动驾驶飞机浮的有效载荷具有挑战性,因为有效载荷会导致机器人动力学发生重大且不可预测的变化。这些变化可能导致飞行性能欠佳,甚至发生灾难性故障。尽管自适应控制和基于学习的方法原则上可以适应这些混合机器人有效载荷系统的变化,但是在飞行中快速适应具有先验未知物理特性的有效载荷仍然是一个悬而未决的问题。本文提出了一种元学习方法,该方法可在连接后飞行数据的几秒钟内“学习如何学习”变化后的动力学模型。实验表明,在一系列具有挑战性的悬挂式有效载荷运输任务中,该文的在线适应方法优于非自适应方法。
论文链接:https://www.aminer.cn/pub/5ea2b8c391e01167f5a89e1c?f=cs

标题:ViNG: Learning Open-World Navigation with Visual Goals(ViNG:通过视觉目标学习开放世界的导航)
简介:本文提出了一种基于学习的导航系统,以实现视觉指示的目标,并在真实的移动机器人平台上演示该系统。与传统的机器人导航方法相比,学习可以使机器人学习导航能力,了解可穿越的障碍物类型(例如高草),而不是根据几何形状和地图来推理环境。(例如墙壁),并概括环境中的模式。在部署过程中很难更改学习策略的目标。通过学习导航到所需目的地的目标图像的方法。将学习到的策略与根据先前观察到的数据构建的拓扑图相结合,即使在外观和光线变化的情况下,该系统也可以确定如何达到视觉指示的目标。在航点提议,图形修剪和否定挖掘使该方法能够仅使用脱机数据来学习在现实环境中的导航,而这是以前方法所难以解决的。实例研究表明ViNG的系统优于以前提出的用于目标条件式强化学习的方法,包括结合强化学习和搜索的其他方法。在许多实际应用中演示了ViNG,例如最后一英里的交付和仓库检查。
论文链接:https://www.aminer.cn/pub/5fdc955491e01104c9181219?f=cs

标题:SimGAN: Hybrid Simulator Identification for Domain Adaptation via Adversarial Reinforcement Learning(SimGAN:通过对抗增强学习进行领域自适应的混合模拟器识别)
简介:随着基于学习的方法朝着使机器人控制器设计自动化的方向发展,将学习到的策略转移到具有不同动态特性的新域(例如,从模拟到真实的转移)仍然需要人工。本文介绍了SimGAN,它是一种解决领域适应问题的框架,它通过使用学习的判别性损失来解决与人工损失设计相关的局限性,从而确定混合物理模拟器以将模拟轨迹与目标领域的轨迹相匹配。混合模拟器将神经网络和传统物理模拟相结合,以平衡表现力和通用性,并减少了在系统ID中精心选择的参数集的需求。通过对抗性强化学习识别出混合模拟器之后,就可以将其用于优化目标领域的策略,无需收集更多数据。证明了该方法在六个机器人运动任务领域的表现优于多个强基准。
论文链接:https://www.aminer.cn/pub/600558f091e0118e0cce2239?f=cs

标题:Learning Task Space Actions for Bipedal Locomotion(学习双足运动的任务空间动作)
简介:强化学习 (RL) 在训练真实机器人双足运动策略方面的成功。然而,先前研究侧重于基于跟踪现有控制器产生的联合轨迹的目标来学习联合协调控制器。因此,很难训练这些方法来实现腿运动的更高级别的目标。本文提出了将机器人系统的知识整合到 RL 中的方法,以允许在任务空间动作的水平上根据脚设定点进行学习。特别是将学习任务空间策略与基于模型的逆动力学控制器相结合,将任务空间动作转换为关节级控制。通过这种用于学习运动的自然动作空间,与学习纯联合空间动作相比,该方法具有更高的样本效率并产生所需的任务空间动态。通过模拟中演示了该方法,并表明学习到的策略能够转移到真正的双足机器人 Cassie上。这一结果激励进一步研究将双足控制技术纳入学习过程的结构以实现动态行为。
论文链接:https://www.aminer.cn/pub/5fabac3591e0110281fda9b8?f=cs

标题:Learning Spring Mass Locomotion: Guiding Policies With a Reduced-Order Model(学习弹簧质量运动:使用降阶模型指导策略)
简介:本文描述了一种在物理机器人上实现动态腿部运动的方法,该方法将现有的控制方法与强化学习相结合。通过描述腿运动的基本物理学的降阶模型来规划最高级别的行为,而较低级别的控制器利用可以弥合理想化简单模型之间差距的学习策略以及复杂的全订单机器人。高级规划器可以使用环境模型并针对特定的任务,而低级学习控制器可以执行各种运动,以便它适用于许多不同的任务。基于学习动态步行控制器,并展示了来自降阶模型的一系列步行运动可以用作学习策略的命令和主要训练信号。由此产生的策略不是试图像传统的轨迹跟踪控制器那样天真地跟踪运动,而是平衡即时运动跟踪与长期稳定性。最终的控制器以高达1.2 m / s的速度在人类规模,不受约束的双足机器人上进行了演示。本文为通用的动态学习步行控制器奠定了基础,该控制器可应用于许多不同的任务。
论文链接:https://www.aminer.cn/pub/5f929e9791e011edb35738e9?f=cs

标题:Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning(模型预测演员-评论家:通过深度强化学习来加速机器人技能的获得)
简介:基于模型的强化学习算法的实质性进步已受到所收集数据引起的模型偏差的阻碍,其固有的样品效率保证了其在大多数机器人应用中的实用性,从而限制了训练过程中对机器人及其环境的潜在损害。受信息理论模型预测控制和深度强化学习进展的启发,本文引入了基于模型/无模型的混合方法-模型预测演员-评论家(MoPAC),将模型预测推出与策略优化相结合,从而减轻了模型偏差。MoPAC利用最佳轨迹来指导策略学习,通过其无模型方法进行探索,从而使该算法可以学习更具表现力的动力学模型。这种结合保证了最佳的技能学习,直至接近误差,并减少了与环境的必要物理交互,使其适合于实际的机器人培训。通过评估MoPAC来进行物理机械手学习以进行阀门旋转和手指步态学习来得出结论-这是一项需要抓握、操纵然后重新抓取物体的任务。
论文链接:https://www.aminer.cn/pub/605db42791e0113c286559c3?f=cs

标题:Differentiable Physics Models for Real-World Offline Model-Based Reinforcement Learning(现实世界基于离线模型的强化学习的可微物理模型)
简介:基于模型的强化学习 (MBRL) 的一个限制是会利用学习模型中的错误。黑盒模型可以高保真地拟合复杂的动力学,但它们的行为在数据分布之外是未定义的。基于物理的模型由于其信息结构的普遍有效性而更擅长外推,但由于存在未建模的现象,因此在现实世界中不适合。实验证明对于基于离线模型的强化学习设置,如果机械结构已知,则基于物理的模型与高容量函数逼近器相比可能是有益的。基于物理的模型可以使用离线 MBRL 仅使用 4 分钟的采样数据学习在物理机械手上执行杯中球 (BiC) 任务。尽管可以访问比基于物理的模型更多的数据,但黑盒模型始终为 BiC 制定不可行的策略,因为所有预测轨迹都发散到物理上不可能的状态。此外,本文将物理参数识别方法从完整的多体系统建模推广到使用端到端自动微分的非完整动力学系统。
论文链接:https://www.aminer.cn/pub/5fa2890391e011cda13f4fe3?f=cs

标题:Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones(Recovery RL:通过学习的恢复区域进行安全强化学习)
简介:安全仍然是阻止在现实世界中广泛使用RL的主要障碍:在不确定的环境中学习新任务需要进行广泛的探索,而安全则需要进行有限的探索。本文提出了Recovery RL,该算法可通过(1)利用离线数据来了解违反约束的区域来导航此折中前策略学习和(2) 分离跨两个策略提高任务性能和约束满意度的目标:仅优化任务奖励的任务策略,以及在可能违反约束条件时将智能体引导至安全状态的恢复策略。本文在6个仿真域上评估了Recovery RL,包括两个接触丰富的操纵任务和一个基于图像的导航任务,以及在物理机器人上的基于图像的避障任务。本文将Recovery RL与5种先前的安全RL方法进行了比较,后者通过约束优化或奖励整形共同优化了任务性能和安全性,发现Recovery RL在所有领域的性能均优于次优方法。结果表明,Recovery RL在约束域和任务成功之间进行权衡,仿真领域的效率提高2至20倍,而物理实验的效率提高3倍。
论文链接:https://www.aminer.cn/pub/5f9fcda491e0112e85ce8fe9?f=cs

标题:What Can I Do Here? Learning New Skills by Imagining Visual Affordances(我可以在这里做什么?通过想象视觉影响来学习新技能)
简介:一个拥有学习技能的通用型机器人必须能够在许多不同的环境中执行许多任务。然而遇到环境或物体变化时,它可能需要微调它的一些技能以适应这种变化。先前的行为和模型仍然应该适合并加速这种新的学习场景。本文的目标是研究可能的结果的生成模型如何能够让机器人学习有负担能力的视觉表征,从而使机器人就可以在新的情况下对潜在的可能结果进行采样,然后进一步训练其策略。当机器人遇到陌生的环境时,它可以从其模型中抽出潜在的结果,试图达到这些结果,然后进一步训练其策略以达到这些结果。即视觉运动承受力学习(VAL),可以用来训练有目标的策略。可用于训练以原始图像输入为基础的目标条件策略,并能迅速学会通过VAL快速学习操纵新物体。
论文链接:https://www.aminer.cn/pub/60c9423e91e01169a64d986a?f=cs

新工具

标题:BADGR: An Autonomous Self-Supervised Learning-Based Navigation System(BADGR:一个基于自监督学习的自主导航系统)
简介:移动机器人导航通常被视为一个几何问题。机器人的目标是通过感知环境的几何形状,以规划无碰撞的路径达到预期的目标。然而,一个对世界的纯粹的几何角度可能不足以解决许多导航问题。例如,一个基于几何学进行导航的机器人可能会避开一片高大的草地,因为它认为那是无法穿越的,因此将无法达到它的预期目标。本文研究了如何超越这些纯粹基于几何学的方法,使用一种从经验中学习物理导航能力的方法(BADGR)。其为基于端到端学习的移动机器人导航系统,可以用在真实世界环境中收集的自监督的离线数据进行训练,不需要任何模拟或人类监督。BADGR可以在现实世界的城市和非道路环境中进行导航。在现实世界中,BADGR可以在有几何干扰障碍物的城市和越野环境中进行导航。它还可以将地形偏好,归纳到新的环境中,并通过收集更多的数据继续通过收集更多的数据来自主地改进。
论文链接:https://www.aminer.cn/pub/5e4672c93a55ac14f595d8ac?f=cs

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章