强化学习中的政策组合通过多目标政策优化
摘要:通过利用相关的现有的教师策略,我们使强化学习代理能够学习成功的行为策略。教师策略被引入为目标,除了任务目标外,还在多目标策略优化设置中使用。通过使用多目标最大后验策略优化算法(Abdolmaleki等人,2020),我们证明了教师策略可以帮助加快学习速度,特别是在没有形成奖励的情况下。在两个具有连续观测和动作空间的领域中,我们的代理成功地按顺序和同时组合教师策略,并且还能够进一步扩展教师的策略以解决任务。根据指定的任务和教师组合的不同,教师可能自然地限制代理的最终性能。代理需要遵守教师策略的程度由超参数决定,这些超参数确定了教师对学习速度和代理在任务上最终性能的影响。在人形领域(Tassa等人,2018)中,我们还使代理具备控制教师选择的能力。借助这种能力,代理能够有意义地从教师策略中组合,从而在行走任务中达到比没有教师策略的情况下更优的任务奖励。我们通过视频展示了组合任务策略与相应教师策略的相似性。
作者:Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin Riedmiller, Abbas Abdolmaleki, Doina Precup
论文ID:2308.15470
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-31