从离线数据学习可变目标的控制策略
摘要:离线强化学习为动态系统提供了一种可行的方法来获取先进的控制策略,特别是当与环境的直接交互不可用时。在本文中,我们引入了一种基于模型的策略搜索方法的概念扩展,称为可变目标策略(VOP)。通过这种方法,策略被训练成能够有效地推广各种目标,这些目标参数化了奖励函数。我们证明,通过改变传递给策略的目标,用户可以在运行时自由地调整其行为或重新平衡优化目标,而无需收集额外的观测批次或重新训练。
作者:Marc Weber, Phillip Swazinna, Daniel Hein, Steffen Udluft, and Volkmar Sterzing
论文ID:2308.06127
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-14