锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

深度强化学习算法的未来——样本效率研究

时间:2022-12-02 17:00:01 weber传感器captor

摘要

强化学习已成为实现智能身体的重要工具,因为它可以自动适应环境。在深度学习模型的支持下,强化学习可以在复杂的任务(如玩像素游戏)中表现出巨大的潜力。然而,目前的强化学习方法需要大量的互动数据,这是现实生活中应用程序无法承受的成本。在本文中,我们从探索(exploration)优化(optimization)环境建模(environment modeling)经验迁移(experience transfer)抽象(abstraction)从五个角度进行阐述。同时也讨论了实际应用中的一些挑战,希望能激发未来的研究。

简介

在生活中做决定是一种普遍的行为,做决定也是智能身体的关键特征。事实上,长期目标需要对决策有远见(the intelligence of long-term vision)和极少贪心(less greedy behaviors)如果你在一个陌生的环境中做出决定,你需要足够的智能身体来适应环境。Sutton书中描述了强化学习:强化学习研究如何在未知环境中为长期目标做出决策,所以这也是AI研究核心。

图1智能体与环境互动

智能主体通过与环境的互动探索未知区域,并从探索数据中学习策略。通常,探索数据包括:环境状态变化、探索行动和奖励信号,并通过奖励评价策略的质量(评价标准为最大总奖励)。

这种基于探索的想法几乎用于所有的强化学习算法。从战略建模的角度来看,这些算法可以分为值函数估计算法和战略搜索算法。值函数估计算法通过估计值函数从当前状态和行动相似性表达长期奖励,而策略直接从值函数中获得。战略搜索算法直接学习战略模型。最近的一些工作更集中在结合值函数学习策略模型(比如我们熟知的actor-critic从而继承两者的优势。

近几十年来,强化学习取得了一些成功,如AlphaGo打败人类棋手,玩Atari游戏比人类更强大。但这些成功仅限于数字世界,在现实生活中仍存在许多障碍。一个明显的局限性在于目前的强化学习算法样本效率很低,需要与环境大量交互,但对于现实世界来说,这些大量的交互通常意味着付出高昂的代价。即使在复杂的数字环境中,比如玩完整的星际争霸游戏,极低的样本效率也阻碍了RL学好策略。

图2AlphaGo与李世石决斗

图3智能体玩Atari游戏

据本文介绍,样本效率可能受到限制的原因有很多。本文不是综述,而是分享和讨论几种缓解这一局限性的方法:如何有效地探索环境,如何更好地优化策略;考虑环境,如何学习环境模型;考虑多个环境,如何在环境之间重用和迁移经验;更重要的是,如何抽象状态和行动。本文在每个部分讨论了这些问题,并讨论了在实际应用中可能没有被注意到和需要更多关注的问题。

探索

在未知的环境中,agent为了获得更好的轨迹数据,需要遍历每个未访问状态。agent不能严格遵循当前的策略,因为这是从以前的数据中学到的,也会导致遵循以前的路径。探索策略通常被用来鼓励偏离以前的路线。例如,基础探索方法-greedy和Gibbs在输出动作中注入一些随机性,即动作空间噪声,因此执行每个动作并访问每个状态的概率不是零。但动作空间噪声的问题是,生成的策略可能远离当前的策略或超出参数空间,这将使策略难以更新。

参数空间噪声

随机探索参数空间(即参数空间噪声)可能有利于策略更新,Plappert2018年,参数空间噪声比动作空间噪声更有效。Fortunato2018年,等人提出了另一种可以作为动作空间噪声和参数空间噪声之间的中间方法来获得回报。随机神经网络被添加到战略网络(特别是在输出层附近)中,以产生随机动作。

好奇心驱动的探索

上述策略虽然可用,但都是盲目搜索。agent可能会多次尝试使用错误的路径,因为它并不清楚该路径是否曾经被探索过,这可能是因为当前的RL算法需要大量样本的主要原因(碰运气)。

Singh2004年的研究表明,好奇心驱动的探索比随机探索更有效。agent记录每个状态和动作的访问次数,并根据计数将内部奖励添加到环境奖励中,以估计agent访问较少的状态。这种方法十几年前已经被提出了,但所用的状态空间和动作空间都是很小并且离散的。实现好奇心驱动策略的主要障碍之一是知道以前是否访问过一种状态。

Pathak2017年,等人提出了内在好奇心模块(ICM,Intrinsic Curiosity Module)为了克服这一障碍,它使用状态预测错误作为确定状态是否已被访问的测量。同时,它使用自我监督来学习状态的低维表示。然而,内部奖励通常是由延迟反馈驱动的agent学习可能需要直接鼓励探索机制的帮助。

优化

探索后,从环境中收集一些交互数据,学习从数据中更新模型的策略或值函数。目前,神经网络(NN)可能是模型的最佳选择,但找到合适的模型NN不太清楚。

考虑到战略搜索方法,直接目标是最大化预期的长期回报,可以表示对当前状态和行动分布的整合奖励,由战略决定。监督学习方法不同于固定样本,RL要实现优化目标,首先需要从策略中生成样本。战略一旦更新,分布就会改变,更新后的策略必须生成新的样本。因此,优化面临的是非静态环境,目标不是在当前样本中达到最佳目标值,因此有必要探索以找到更好的样本。

优化样本

主流的模型更新方法通常取决于目标或替代目标的梯度,例如TNPG和TRPO然而,这些方法只考虑样本的策略更新,而不涉及探索。同时,还有另一种优化方法——从样本中优化,也称为无导数优化,它们各有优势。

无导数优化算法具有相同的结构。根据搜索空间中的一些随机样本进行初始化,从而在这些观测值的先前样本中学习一个潜在的更好样本区域。然后,他们从该区域生成新样本,并重复样本和学习迭代。代表性算法包括进化算法、贝叶斯优化等。

应用无导数优化方法RL一种直接的方法是将搜索空间定义为战略参数,并将目标函数作为长期奖励回报。然后,无导数优化尝试采样不同的策略参数,并学习下一次迭代的采样位置。

无导数优化方法涉及搜索过程中的探索,因此可以与之相匹配RL结合并承担RL探索职责,Whiteson2012年的工作和Pet2018年的工作表明,这种方法在某些任务中表现良好。

然而,无导数优化方法也有局限性,如收敛速度慢、扩展困难、噪声敏感,没有理论保证。然而,这一方向的最新进展研究了这些问题,包括无导数优化方法、高维搜索空间扩展方法和噪声处理方法、混合优化方法。

另一种克服无导数优化局限性的方法是将其他基于梯度的方法结合起来。Jaderberg2017年的工作借用了无导数方法的总体思路来维护模型的样本集,模型优化仍采用梯度方法。

随机梯度郎的万动力学(Langevin dynamics)最近引起了很多关注。它也可以看作是一种混合方法,因为Langevin动力学等效于随机采样。然而,对两种优化方法的混合研究仍然很少。混合优化是一个有趣而有前途的方向,因为它不仅可以克服基于梯度方法的贪婪,还可以克服无导数方法收敛缓慢的问题

建立环境模型

尽管没有模型RL算法占据了很大的研究量,但基于模型的算法可以更有效地构建环境模型。

环境模型包括状态转换函数(告诉采取行动后状态应如何变化)和奖励函数(用于解释如何奖励状态转换)构建环境模型学习是监督学习

转换数据集可以从某些采样路径中提取。方法是将时间t的状态与动作一起输入t 1时的状态构成输出。一旦建立了环境模型,该模型的规划就不包括现实世界的样本,因此它将是提高样本效率的理想方法。然而,这种监督学习方法只在离散或较小的状态空间中有效,在大/高维条件下几乎没有效果。

结合有模型和无模型

由于难以准确学习环境模型,有一种趋势——即agent不完全依赖于学习的环境模型来获取策略,而是从不准确的模型中提取指导信息。

Tamar2016年提出的值迭代网络采样规划结构化网络实现值迭代,学习环境迭代和值迭代,然后将值迭代的规划结构作为战略输入的增强特征。

Weber2018年,其他人提出了想象力增强模块agent,想象模块可以学习环境模型,模块的转出路径被编码为战略输入的增强特性。

Pong2018年的工作不会改变学习环境的状态,而是学习Q函数,可以预测目标距离,可以作为指导学习的及时奖励。显然,这些涉及环境模型学习的方法可以从无模型方法中得到显著改进,从而大大改善了现状。但对于随机环进行建模依旧非常困难,并且这些环境建模方法只能在受限环境中使用,无法泛化。

手动构建环境

在许多应用中,已经手动构建了环境模型,也就是模拟器,例如飞机和机器人设计的模拟器。这些模拟器可以用较小的代价训练强化学习。但对于更复杂的应用时就很难手动构建模拟器,例如涉及买卖双方的在线零售系统就很难用粗糙的行为模型来模拟。

Shi等人于2018年基于GAN提出了一种多智能体模仿学习方法,可以从经验数据中重建人的策略,研究表明该方法可以学习得到一个叫虚拟淘宝的模拟器,该模拟器可以紧密模仿淘宝环境中的客户行为。

这项工作进一步说明了在经验数据足够的情况下,对抗学习可能具有真实模拟物理世界的能力。但这种方法将环境模型学习与策略学习分开,如果结合在一起的话,模型可能更加通用和强大。

经验迁移

人类不会做每项工作都从头做起,而是从很多任务中不断学习并积累经验。前一个任务中积累的经验可以加速在未来任务的学习进程。

类似地,一个智能体可以在之前的经验可用的前提下从一个任务中高效学习。这也是迁移强化学习的子领域,同样也被研究了几十年。所提出的方法都是下面几个方面:迁移样本,迁移表现,迁移技能或选择(这与抽象相关)。

最近的进展包含快速启动模型,Finn等人提出的MAML学习一种平均模型,但可以更新并用于不同任务,因此,该模型可以适当地更新为特定任务;同时,学习一个快速启动模型必须假设任务是窄分布(narrow distribution)

适应任务的另外一种方式是感知环境,Peng等人提出采用LSTM网络来从交互中自动推断环境参数,Yu等人提出通过执行一些经过粗略训练的策略来探索环境来获取环境参数,在他们的实验中,有5个探测样本足以在新环境中找到良好的策略。

通过感知环境,策略学习任务被简化为仅需要少量样本的环境识别任务。但是所有这些方法仅在有限的情况下生效,目前仍然缺乏通用的迁移强化学习方法。

抽象

本文认为抽象是样本利用率问题的核心问题。通常状态空间的抽象可以提升到具有较小维度的更高级别的状态空间中,一旦这是可行的,则抽象层空间中的探索和环境建模都将变得更加高效。然而抽象是AI领域一直长期存在的问题,并且目前的研究尚欠。

分层强化学习

RL中抽象的一个特殊方向是分层强化学习(HRL),它已经发展了几十年。早期的工作包括Sutton等人通过选择进行学习,其中选择是动作的一种抽象,并由进入条件、退出条件和选择子策略来定义。

分层抽象机(HAMs)预定义了自动机是子策略,MaxQ框架通过分解子目标来学习。虽然有关自动学习层次结构的研究,但缺乏通用方法,并且层次方法严重依赖于作为先验知识给出的层次结构。

最近的研究可能会减少对手工层次结构的需求。SNN4HRL利用信息论来自动训练子策略,但仍然需要领域知识来设计内在奖励。之后的高层策略学习如何利用子策略来完成任务。选项-评价(Option-Critic)算法采用了选项(option),但没有预先的定义。使用策略梯度方法可以训练选项和训练高层策略选择选项。

FeUdal网络采用了经理(高层策略)和工人(低层策略)结构,高层策略通过给低层策略发信号来指导底层策略的行为,这样就没有明确定义的子目标或子政策。

HRL可以从层次结构中受益,因为高层策略的训练时间更短(trained with a shorter horizon),因此效率更高。然而,如何缩短训练时间还不清楚,大多数方法都迫使高层策略只在每个固定步骤中执行,同时高层策略也不能及时更新子策略。

此外,HRL可能不适合只解决一个任务。在多任务和迁移学习场景中,子策略可能被更多地定义为可以跨任务重用的策略段。并且值得关注的是,关于多级层次结构的研究很少。

符号神经网络

需要注意的是,在策略模型内部尽管常用的神经网络(NN)能够从原始输入抽象为某些概念级别,例如识别图像中的目标。但它们却不能在抽象层次上执行,一旦可以执行,策略模型便可强大到学习内部状态/动作的抽象。

值得注意的是,最近的一组研究致力于努力扩展这种NN的能力,Graves等人通过模拟记忆单元使得NN具有记忆能力,Hu等人和Evans等人给神经网络嵌入逻辑组件作为可微部分。

然而,由于当前神经网络模型中无法进行递归,推理路径必须提前扩展,这使得模型太大而无法存储。

Dai等人在神经网络中集成了完整的Prolog系统,以便网络可以使用高效的离散搜索树执行一阶逻辑推论,他们证明,从代数方程图片学习的新模型可以正确理解代数规则,因此在较长的方程上具有很强的泛化性能。故此可以设想,当神经网络模型可以用一阶逻辑推理能力进行通用抽象时,就有可能对环境进行有效建模,并可以跨任务传递其高级推理。

应用面对的挑战

除了上述讨论的问题外,真实世界的应用也会给RL带来新的挑战。第一个挑战可能是非技术性的:

认识到某应用问题是一个RL问题

就推荐系统而言,它已经为许多公司带来大量收益,而直到最近(Hu等人2018)才将推荐系统认为是一个RL问题,这是认识RL潜在价值的关键性的一步。

动态环境

在实际的推荐系统应用中,对于推荐系统而言其环境的主要组成部分用户是不断变化的,因此环境在传统的RL算法假设中是动态的。

Chen等人确定了动态环境可能导致的两个因素:高方差和假的奖励,并采用两个技巧来减弱这些影响,然而怎样根本上改进学习算法使其能够在动态环境中推断其行为的真实结果仍然是一个以待解决的问题。

巨大的动作空间

一个大规模的推荐系统通常有大量条目,比如有成千上万的条目需要被推荐。推荐的每一项通常被定义为一个动作,然而,经典的算法通常需要对每一个离散动作做充足的探索,这就需要很多样本。

Dulac-Arnold等人2016年提出学习嵌入动作空间,其中每个点都可以映射到离散动作,同时,条目通常有它们的描述特征和类别,这些信息可以使用相似性函数将条目组织在层次树中,这可能对学习很有用,并且可能与HRL相关。

总结

文章从多个角度讨论了强化学习的样本效率问题。本文并不是综述性的文章,而是讨论了几个代表性的工作,也有一些工作涉及样本效率但未包含于本文中,例如奖励函数设计模仿学习

强化学习是一个快速成长的领域,新的方法和研究正生机勃勃,然而前沿的研究仍离强化学习的最终目标相去甚远,但新方法和新成果的研究仍有望将人工智能带入下一个“春天”。

本文为俞扬教授的论文Towards Sample Efficient Reinforcement Learning阅读笔记。
题目:Towards Sample Efficient Reinforcement Learning
作者:YangYu
单位:National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing
会议:IJCAI 2018

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章