驳斥马尔科夫决策过程贝尔曼方程的向量扩展的一个反例和修正

摘要:有限时间马尔可夫决策过程的最优值可以通过解决贝尔曼方程来确定。白乔纳森(D.J.White)在1982年将这些方程扩展到向量奖励过程。利用一个反例,我们展示了这个扩展的假设不能保证其有效性。分析这个反例使我们能够陈述出白乔纳森的函数方程有效的充分条件。当策略空间被修正以包括一类特殊的非马尔可夫策略、模型的动态是确定性的或者决策的时间范围不超过三个时间步长时,这个条件是成立的。本文证明,白乔纳森方程的解一般是在经过修正的策略空间中的帕累托最优策略报酬的集合。我们的结果通过一个例子进行了说明。

作者:Anas Mifrani

论文ID:2306.16937

分类:Optimization and Control

分类简称:math.OC

提交时间:2023-08-28

PDF 下载: 英文版 中文版pdf翻译中