强化学习中的政策组合通过多目标政策优化-arXiv论文预印本中文版

强化学习中的政策组合通过多目标政策优化

摘要：通过利用相关的现有的教师策略，我们使强化学习代理能够学习成功的行为策略。教师策略被引入为目标，除了任务目标外，还在多目标策略优化设置中使用。通过使用多目标最大后验策略优化算法（Abdolmaleki等人，2020），我们证明了教师策略可以帮助加快学习速度，特别是在没有形成奖励的情况下。在两个具有连续观测和动作空间的领域中，我们的代理成功地按顺序和同时组合教师策略，并且还能够进一步扩展教师的策略以解决任务。根据指定的任务和教师组合的不同，教师可能自然地限制代理的最终性能。代理需要遵守教师策略的程度由超参数决定，这些超参数确定了教师对学习速度和代理在任务上最终性能的影响。在人形领域（Tassa等人，2018）中，我们还使代理具备控制教师选择的能力。借助这种能力，代理能够有意义地从教师策略中组合，从而在行走任务中达到比没有教师策略的情况下更优的任务奖励。我们通过视频展示了组合任务策略与相应教师策略的相似性。

作者：Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin Riedmiller, Abbas Abdolmaleki, Doina Precup

论文ID：2308.15470

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-31

PDF 下载： 英文版中文版pdf翻译中