马尔可夫决策过程中相关目标的双目标字典序优化

摘要:在马尔可夫决策过程(MDP)上考虑字典排序的双目标问题,在其中我们优化一个目标同时保证另一个目标的最优性。当目标相关时(我们将其形式化)我们提出了一种两阶段的解决方法。我们将我们的技术实例化为两个自然的目标对:最小化(条件)预期步数到达目标,同时保证达到目标的最优概率;同时最大化(条件)预期平均奖励,同时保证在某个安全状态集合中保持安全的最优概率。对于第一个目标组合,该目标组合涵盖了强化学习中的经典冻结湖环境,我们还使用我们算法的原型实现进行了实验,并将其与解决最优可达性问题的最新概率模型检查器的结果进行了比较。

作者:Damien Busatto-Gaston, Debraj Chakraborty, Anirban Majumdar, Sayan Mukherjee, Guillermo A. P''erez, Jean-Franc{c}ois Raskin

论文ID:2305.09634

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-08-17

PDF 下载: 英文版 中文版pdf翻译中