排版的网站,自媒体怎么注册,首饰设计网站大全,腾讯企业邮箱的优惠活动原文来源#xff1a;arXiv作者#xff1a;Ashley D. Edwards、Laura Downs、James C. Davidson「雷克世界」编译#xff1a;嗯~是阿童木呀、KABUDA、EVA在强化学习问题中#xff0c;关于任务目标的制定#xff0c;往往需要开发人员花费很多的精力#xff0c;在本文中arXiv作者Ashley D. Edwards、Laura Downs、James C. Davidson「雷克世界」编译嗯~是阿童木呀、KABUDA、EVA在强化学习问题中关于任务目标的制定往往需要开发人员花费很多的精力在本文中谷歌大脑联合佐治亚理工学院提出了正向-反向强化学习Forward-Backward Reinforcement LearningFBRL它既能从开始位置正向进行探索也可以从目标开始进行反向探索从而加速智能体的学习过程。一般来说强化学习问题的目标通常是通过手动指定的奖励来定义的。为了设计这些问题学习算法的开发人员必须从本质上了解任务的目标是什么。然而我们却经常要求智能体在没有任何监督的情况下在这些稀疏奖励之外独自发现这些任务目标。虽然强化学习的很多力量来自于这样一种概念即智能体可以在很少的指导下进行学习但这一要求对训练过程造成了极大的负担。如果我们放松这一限制并赋予智能体关于奖励函数的知识尤其是目标那么我们就可以利用反向归纳法backwards induction来加速训练过程。为了达到这个目的我们提出训练一个模型学习从已知的目标状态中想象出反向步骤。我们的方法不是专门训练一个智能体以决策该如何在前进的同时到达一个目标而是反向而行共同预测我们是如何到达目标的。我们在Gridworld和汉诺塔Towers of Hanoi中对我们的研究进行了评估并通过经验证明了它的性能比标准的深度双Q学习Deep Double Q-LearningDDQN更好。强化学习Reinforcement LearningRL问题通常是由智能体在对环境的任务奖励盲然无知的情况下规划的。然而对于许多稀疏奖励问题包括点对点导航、拾取和放置操纵、装配等等目标导向的任务赋予该智能体以奖励函数的知识对于学习可泛化行为来说既可行又实用。通常这些问题的开发人员通常知道任务目标是什么但不一定知道如何解决这些问题。在本文中我们将介绍我们如何利用对目标的知识使我们甚至能够在智能体到达这些领域之前学习这些领域中的行为。相比于那些从一开始就将学习初始化的方法这种规划性方案可能更容易解决。例如如果我们知道所需的位置、姿势或任务配置那么我们就可以逆转那些将我们带到那里的操作而不是迫使智能体独自通过随机发现来解决这些难题。Gridworld和汉诺塔环境本文中我们介绍了正向-反向强化学习Forward-Backward Reinforcement LearningFBRL它引入反向归纳使我们的智能体能够及时进行逆向推理。通过一个迭代过程我们既从开始位置正向进行了探索也从目标开始进行了反向探索。为了实现这一点我们引入了一个已学习的反向动态模型以从已知的的目标状态开始进行反向探索并在这个局部领域中更新值。这就产生了“展开”稀疏奖励的效果从而使它们更容易发现并因此加速了学习过程。标准的基于模型的方法旨在通过正向想象步骤并使用这些产生幻觉的事件来增加训练数据从而减少学习优秀策略所必需的经验的数量。然而并不能保证预期的状态会通向目标所以这些转出结果可能是不充分的。预测一个行为的结果的能力并不一定能提供指导告诉我们哪些行为会通向目标。与此相反FBRL采用了一种更有指导性的方法它给定了一个精确的模型我们相信每一个处于反向步骤中的状态都有通向目标的路径。Gridworld中的实验结果其中n 5、10、15、20。我们分别使用50、100、150、200步的固定水平结果是10次实验的平均值。相关研究当我们访问真正的动态模型时可以使用纯粹基于模型的方法如动态编程来计算所有状态的值Sutton和Barto于1998年提出尽管当状态空间较大或连续时难以在整个状态空间中进行迭代。Q-Learning是一种无模型方法它通过直接访问状态以在线方式更新值而函数逼近技术如Deep Q-Learning可以泛化到未见的数据中Mnih等人于2015年提出。基于模型和无模型信息的混合方法也可以使用。例如DYNA-QSutton于1990年提出是一种早期的方法它使用想象的转出出来更新Q值就如同在真实环境中经历过一样。最近出现了更多方法例如NAFGu等人于2016年提出和I2AWeber等人于2017年提出。但这些方法只使用正向的想象力。与我们自己的方法相似的方法是反向的值迭代Zang等人于2007年提出但这是一种纯粹基于模型的方法并且它不学习反向模型。一个相关的方法从一开始就实现双向搜索和目标Baldassarre于2003年提出但这项研究只是学习值而我们的目标是学习行动和值。另一项相似的研究是通过使用接近目标状态的反向课程来解决问题Florensa等人于2017年提出。但是该方法假设智能体可以在目标附近得以初始化。我们不做这个假设因为了解目标状态并不意味着我们知道该如何达到这一状态。 汉诺塔中的实验结果其中n 2、3。我们分别使用50、100步的固定水平。 结果是10次试验的平均值。许多研究通过使用域知识来帮助加速学习例如奖励塑造Ng等人于1999年提出。另一种方法是更有效地利用回放缓冲区中的经验。优先经验复现Schaul等人于2015年提出旨在回放具有高TD误差的样本。事后经验回放Hindsight experience replay将环境中的每个状态视为一个潜在目标这样即使系统无法达到所需的目标也可以进行学习。使用反向动力学的概念类似于动力学逆过程Agrawal等人于2016年Pathak等人于2017年提出。在这些方法中系统预测在两个状态之间产生转换的动态。我们的方法是利用状态和动作来预测前一个状态。此函数的目的是进行反向操作并使用此分解来学习靠近目标的值。本文中我们介绍了一种加速学习具有稀缺奖励问题的方法。我们介绍了FBRL它从目标的反向过程中得到了想象步骤。我们证明了该方法在Gridworld和诺塔中的性能表现优于DDQN。这项研究有多个扩展方向。我们对于评估一个反向计划方法很感兴趣但我们也可以运用正向和反向的想象力进行训练。另一项进步是改善规划策略。我们使用了一种具有探索性和贪婪性的方法但没有评估如何在两者之间进行权衡。我们可以使用优先扫描Moore和Atkeson等人于1993年提出它选择那些能够导致具有高TD误差状态的行为。原文链接https://arxiv.org/pdf/1803.10227.pdf未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”