锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

《强化学习周刊》第36期:DDA3C、因果推理干预、逆强化学习

时间:2023-02-10 00:00:00 sac系列连接器

No.36

智源社区

强化学习组

7ae192e2a74b5fa6c5923087f75439d5.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域的研究热点之一,其研究进展和成果也引起了广泛的关注。为了帮助研究人员了解该领域的相关进展和信息,智能源社区结合该领域的内容,撰写了第36期《强化学习周刊》。本周刊为您整理了最新的论文推荐,以加强学习领域。

本周刊采用社区合作的模式。欢迎感兴趣的朋友参与我们的工作,共同促进学习社区的共享、学习和交流活动。您可以扫描文章末尾的二维码,以加入强化学习社区组。

告诉你一个好消息,《强化学习周刊》已经开启了订阅功能,我们将自动向您推送最新版本的《强化学习周刊》。订阅方法:请点击本文底部的阅读原文进入《强化学习周刊》Hub点击作者栏预训练周刊后,选择社区版关注TAHub社区版有详细的订阅步骤图)。

贡献者:李明、刘青、小胖

论文推荐

近年来,强化学习取得了显著成绩,其应用于分布式离线强化学习、深度合作多智能体强化学习、合作分布式深度强化学习、离线元强化学习、离线训练强化学习、反向强化学习、分层强化学习相关理论及其最新应用等各个领域的研究也取得了显著进展。

本次推荐了13篇加强学习领域的相关论文,主要涉及于DDA3C:集团智能系统中的合作分布式深度强化学习,基于深度合作多智能体强化学习中的价值分解算法,确定分布式离线强化学习中的通信复杂性,更安全:通过技能获取实现数据高效安全强化学习,基于离线训练强化学习的对抗性训练演员评论家,基于模型的正则离线元强化学习,选项兼容奖励反向强化学习,基于噪声环境的鲁棒多智能体强化学习,解决智能问题作为集成层强化学习,基于强化学习的连续控制行为学习和自适应机器人操作,基于深度强化学习的无人机独立切换决策,基于强化学习的因果推理的随机干预等。

标题:DDA3C: Cooperative Distributed Deep Reinforcement Learning in A Group-Agent System(DDA3C:集团智能系统协作分布式深度强化学习)了解详情

简介:若多智能体共同执行各自的强化学习任务,则可大大改善各智能体的强化学习过程。这些任务可能不完全相同,但由于任务的相似性,它们仍然受益于代理之间的通信行为。事实上,这种学习场景还没有得到很好的理解和制定。作为第一项工作,本文详细讨论了场景,并提出了群体agent在这种情况下,强化学习作为强化学习问题的表达,以及关于单一的问题agent和多agent第三类强化学习问题。本文建议借助现代深度强化学习技术解决这一问题,并提供分布式深度强化学习算法DDA3C(Discentralised distributed Asynchronous Advantage Actor Critic,分散分布式异步优势演员-评论家)是第一个为群体代理强化学习设计的框架。并在CartPole-v0游戏环境中的实验表明DDA3C 性能理想,可扩展性好。

论文链接:https://arxiv.org/pdf/2202.05135.pdf

标题:Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning(基于深度合作多智能体强化学习中的价值分解算法)了解详情

简介:价值函数分解正在成为扩展多智能体强化学习的合作博弈(MARL)常用的经验法则。为了建立这种分解规则,必须假设单个整体的最大值(IGM)原则;即每个智能体分解值函数上的局部最大值必须等于联合值函数上的全局最大值。然而,这一原则并不一定普遍适用。因此,值分解算法的适用性是隐藏的,其相应的收敛性仍得而知。本文首先尝试回答这些问题,其引入了一组合作对策,其中的值分解方法是有效的,称之为可分解对策。本文理论上证明了多智能体适应的应用Q-迭代算法(MA-FQI)将得到最优Q-函数。在不可分解对策中,Q函数需要在每次迭代时投影到可分解函数空间,MA-FQI估计的Q函数仍然可以收敛到最佳。在这两种设置中,考虑值函数通过实际的深度神经网络得到相应的收敛速度。这篇文章的结果首次是MARL从业者提供了价值分解算法何时收敛以及为什么表现良好的理论见解。

论文链接:https://arxiv.org/pdf/2202.04868.pdf

标题:Settling the Communication Complexity for Distributed Offline Reinforcement Learning(分布式离线强化学习中通信复杂度的确定)了解详情

简介:本文研究了离线强化学习 (RL) 在一个新的设置中,许多分布式机器共同解决问题,但只允许单轮通信,每台机器可以发送的总信息(以比特为单位)有预算约束。对于上下文bandits价值函数预测,以及偶非偶发 MDP,本文建立了分布式统计估计的大、小风险信息论下界;这揭示了任何离线 RL 算法所需的最小通信量。具体来说,研究表明,比特数必须至少按比例缩放Ω ( AC)匹配集中的最小最优率,其中A是动作量和C是上下文维度;同时,在 MDP 类似的结果也在设置中得到。此外,本文提出了基于最小二乘估计和蒙特卡洛回报估计的学习算法,并提供了一个清晰的分析,表明它们可以实现对数因素的最佳风险。此外,研究还表明,由于该方法的初始偏差,在单轮通信设置下,所有可用设备的信息都无法有效地利用时差。本文提出了分布式离线 RL 问题的第一个极小极大的下界。

论文链接:https://arxiv.org/pdf/2202.04862.pdf

标题:SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition(更安全:通过技能获取实现高效安全的数据强化学习)了解详情

简介:尽管许多强化学习(RL)问题包括在难以指定安全约束和稀疏奖励的环境中学习策略,但目前的方法很难获得成功和安全的策略。在这些更复杂的环境中,使用生成建模从离线数据集中提取有用策略原语的方法最近显示出加速RL前景。然而,研究发现,目前的原始学习方法可能不适合学习安全策略并且可能会促进不安全行为,因为它们倾向于忽略来自不良行为的数据。为了克服这些问题,本文提出了安全技能优先(SAFER),这是一种在安全约束下加速复杂控制任务策略学习的算法。通过对离线数据集的原则性培训,SAFER学习提取安全的原始技能。在推理阶段,接受过安全培训的政策将学习将安全技能组合成成功的政策。本文从理论上描述了为什么SAFER可以实施安全策略学习,并证明了它在受游戏操作启发的几个复杂的安全关键机器人抓取任务上的有效性,其中SAFER在学习成功的策略和实施安全方面优于基线方法。

论文链接:https://arxiv.org/pdf/2202.04849.pdf

标题:Offline Reinforcement Learning with Realizability and Single-policy Concentrability(具有可实现性和单策略集中性的离线强化学习)了解详情

简介:离线强化学习(RL)的样本效率保证通常依赖于对函数类(如Bellman完备性)和数据覆盖率(如所有策略集中性)的有力假设。尽管最近做出了放松这些假设的研究,但现有的工作只能放松这两个因素中的一个,而对另一个因素的强大假设则完好无损。作为一个重要的开放性问题,能否在对这两个因素的假设较弱的情况下实现样本有效的离线RL显得尤为重要,本文以肯定的方式回答这个问题。通过分析了一个基于MDP原始-对偶公式的简单算法,其中对偶变量(折扣入住率)使用密度比函数对离线数据进行建模。通过适当的正则化证明了该算法在仅可实现和单策略集中的情况下,具有多项式样本复杂度。该研究还提供了基于不同假设的替代分析,以阐明离线RL的原始-对偶算法的性质。

论文链接:https://arxiv.org/pdf/2202.04634.pdf

标题:Adversarially Trained Actor Critic for Offline Reinforcement Learning(基于离线训练强化学习的对抗性训练演员评论家)了解详情

简介:本文提出了 Adversarially Trained Actor Critic (ATAC),这是一种新的无模型算法,用于在数据覆盖不足的情况下进行离线强化学习,基于离线 RL 的两人 Stackelberg 游戏框架:策略参与者与经过对抗训练的价值评论家竞争,后者发现参与者不如数据收集行为策略的数据一致场景。研究表明,当参与者在两人游戏中没有后悔时,运行 ATAC 产生的策略可证明:1)在广泛的超参数范围内优于行为策略,以及 2)以适当的方式与数据覆盖的最佳策略竞争选择的超参数。与现有研究相比,值得注意的是,该框架既为通用函数逼近提供了理论保证,又为可扩展到复杂环境和大型数据集的深度 RL 实现提供了保障。在 D4RL 基准测试中,ATAC 在一系列连续控制任务上始终优于最先进的离线 RL 算法。

论文链接:https://arxiv.org/pdf/2202.02446.pdf

标题:Model-Based Offline Meta-Reinforcement Learning with Regularization(基于模型的正则化离线元强化学习)了解详情

简介:现有的离线强化学习(RL)方法面临一些主要挑战,尤其是学习策略和行为策略之间的分布变化。离线元RL正在成为解决这些挑战的一种有前途的方法,旨在从一系列任务中学习信息丰富的元策略。然而,正如研究所示,在数据集质量良好的任务上,离线元RL方法可能优于离线单任务RL方法。基于此,本文探索了基于模型的离线元RL和正则化策略优化(MerPO),它学习了一个元模型,用于有效的任务结构推理,以及一个信息元策略,用于安全探索分布外状态的行动。本文设计了一种新的基于元正则化模型的角色-批评(RAC)方法,用于任务内策略优化,作为MerPO的关键构建块,使用保守策略评估和正则化策略改进;内在权衡是通过在两个正则化器之间取得适当的平衡来实现的,分别为基于行为策略和元策略。该研究从理论上证明,学习策略比行为策略和元策略都有保证的改进,从而确保通过离线元RL提高新任务的性能。实验证实了MerPO比现有离线Meta-RL方法优越的性能。

论文链接:https://arxiv.org/pdf/2202.02929.pdf

标题:Option compatible reward inverse reinforcement learning(选项兼容奖励逆强化学习)了解详情

简介:复杂环境下的强化学习是一个具有挑战性的问题。特别是,强化学习算法的成功取决于精心设计的奖励函数。逆强化学习 (IRL) 解决了从专家演示中恢复奖励函数的问题。本文解决了选项框架内的分层逆强化学习问题,从而使得能够利用专家演示的内在动机。参数化选项的梯度方法用于推导出 Q 特征空间的定义方程,从而得到奖励特征空间。使用期权参数的二阶最优条件,选择最优奖励函数。离散域和连续域的实验结果证实,本文恢复的奖励使用时间抽象提供了 IRL 问题的解决方案,这反过来又有效地加速了迁移学习任务,并且此方法对专家演示中包含的噪声具有鲁棒性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0167865522000241#!

标题:Robust multi-agent reinforcement learning for noisy environments(基于噪声环境的鲁棒多智能体强化学习)了解详情

简介:尽管最近在强化学习 (RL) 方面取得了进展,但由 RL 训练的智能体通常对环境敏感,尤其是在多智能体场景中。现实世界的环境通常是嘈杂的。从噪声环境中获得的不准确信息会阻碍智能体的学习,甚至导致训练失败。本文关注在噪声环境中训练多个鲁棒智能体的问题。对此本文提出了一种新的算法,多智能体容错强化学习(MAFTRL)。本文主要思想是建立智能体自身的错误检测机制,设计智能体之间的信息通信媒介。错误检测机制基于自动编码器,计算每个智能体观察的可信度,有效降低环境噪声。基于注意力机制的通信媒介可以显著提高智能体提取有效信息的能力。实验结果表明,本文的方法准确地检测了智能体的错误观察,在传统的可靠环境和嘈噪声环境中都具有良好的性能和较强的鲁棒性。

论文链接:https://link.springer.com/content/pdf/10.1007/s12083-021-01133-2.pdf

标题:Intelligent problem-solving as integrated hierarchical reinforcement learning(智能问题解决作为集成的分层强化学习)了解详情

简介:根据认知心理学和相关学科,生物主体复杂问题解决行为的发展依赖于分层认知机制。分层强化学习是一种很有前途的计算方法,最终可能会在人工智能体和机器人中产生类似的问题解决行为。目前为止,许多人类和非人类动物的解决问题的能力明显优于人工系统。本文提出了整合受生物学启发的分层机制的步骤,以实现人工智能智能体的高级问题解决技能。本文首先回顾认知心理学的文献,以强调组合抽象和预测处理的重要性。然后,将获得的见解与当代分层强化学习方法联系起来。研究结果表明,所有已识别的认知机制都已在孤立的计算架构中单独实现。作为最后贡献,本文通过提供关于开发这种统一架构的计算挑战的综合观点来解决这个问题。

论文链接:https://www.nature.com/articles/s42256-021-00433-9?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

标题:Continuous control actions learning and adaptation for robotic manipulation through reinforcement learning(基于强化学习的连续控制行为学习与自适应机器人操作)了解详情

简介:本文提出了一种基于学习的方法,利用仿真数据,使用两种无模型强化学习算法(RL)来学习对象操作任务。比较了基于策略和非策略算法的学习性能:近端策略优化(PPO)和软参与者批评(SAC)。为了加快学习过程,提出了一种微调程序,该程序演示了基于策略的RL对新环境的持续适应,允许学习到的策略适应并执行(部分)修改的任务。为任务设计了一个密集的奖励函数,以实现对智能体的有效学习。将涉及Franka Emika Panda机械手的抓取任务视为要学习的参考任务。学习到的控制策略被证明可以推广到多个物体几何形状和初始机器人/零件配置中。

论文链接:https://link.springer.com/content/pdf/10.1007/s10514-022-10034-z.pdf

标题:Proactive Handover Decision for UAVs with Deep Reinforcement Learning(基于深度强化学习的无人机自主切换决策)了解详情

简介:无人驾驶飞行器 (UAV) 的应用在监控、物流和娱乐等领域迅速增长,需要与蜂窝网络持续连接以确保其无缝运行。然而,当前蜂窝网络中的切换策略主要是为地面用户设计的,由于空中信号强度的频繁波动,不适用于无人机。本文提出了一种新的切换决策方案,该方案部署了深度强化学习 (DRL),以防止不必要的切换,同时保持稳定的连接性。所提出的 DRL 框架将无人机状态作为近端策略优化算法的输入,并基于奖励函数开发接收信号强度指标 (RSSI),用于在线学习无人机切换决策。所提出的方案在 3D 仿真 UAV 移动环境中进行评估,与贪婪和基于 Q 学习的 UAV 切换决策方案相比,它分别减少了高达 76% 和 73% 的不必要切换。

论文链接:https://www.mdpi.com/1424-8220/22/3/1200/htm

标题:Stochastic Intervention for Causal Inference via Reinforcement Learning(基于强化学习的因果推理随机干预)了解详情

简介:因果推理方法广泛应用于精准医学、最优策略和经济学等各种决策领域。因果推理的主要焦点是干预策略的治疗效果估计,现有方法大多局限于确定性治疗,并比较不同治疗下的结果。然而他们缺乏解决细粒度治疗效果估计以增强决策应用的能力。本文通过提出一个新的有效框架来估计随机干预下的治疗效果来推进因果推理研究。本文开发了一种基于非参数影响函数的随机干预效果估计器(SIE),具有鲁棒性和快速收敛速度的理论保证。此外,本文构建了一个基于随机搜索求解器的定制强化学习算法,可以有效地找到最优策略,从而为决策过程产生最大的预期结果。最后,本文进行了广泛的实证实验,以验证此框架与最先进的基线相比可以实现卓越的性能。

论文链接:https://www.sciencedirect.com/science/article/pii/S0925231222001072#!

研究综述

标题:A survey of inverse reinforcement learning(逆强化学习综述)了解详情

简介:从示范中学习,或模仿学习,是从老师提供的例子中学习在环境中行动的过程。逆强化学习(IRL)是一种从演示中学习的特殊形式,它试图从老师提供的示例中估计马尔可夫决策过程的奖励函数。奖励函数通常被认为是对一项任务最简洁的描述。在简单的应用中,奖励函数可能是已知的,也可能很容易从系统的属性中导出,并硬编码到学习过程中。然而,在复杂的应用中,这可能是不可行的,而且通过观察教师的行为来学习奖励函数可能更容易。本文对IRL的相关文献进行了综述。这项调查概述了IRL和两种类似方法之间的差异——学徒学习和逆最优控制。此外,本调查根据主要方法组织了IRL文献,描述了IRL算法的应用,并提供了未来研究的领域。

论文链接:

https://link.springer.com/content/pdf/10.1007/s10462-021-10108-x.pdf

标题:A Survey of Domain-Specific Architectures for Reinforcement Learning(强化学习领域特定架构综述)了解详情

简介:强化学习算法在解决多个不同问题领域的连续决策问题上取得了巨大的成功。然而,他们的训练通常很耗时,训练时间从几个小时到几周不等。强化学习领域特定体系结构的开发有望加快计算速度,减少实验周转时间,提高能源效率。本文综述了强化学习算法加速的硬件结构。基于FPGA的实现是这项工作的重点,但也考虑了基于GPU的方法。此综述包括表格和深度强化学习算法。重点介绍并比较了不同实现中使用的技术。最后,根据前面对现有体系结构的讨论,提出了未来工作的可能领域。

论文链接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9694573

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章