能量和均值回报平等的马尔可夫决策过程

摘要:MDPs中的能量平衡和均值回报目标的决策过程研究,均值回报和能量目标可以用来建模定量资源约束。能量条件要求资源水平不低于0,均值回报条件要求资源消耗的极限平均值在一个阈值范围内。尽管这两个经典条件在两人博弈中是等价的,我们证明它们在MDPs中是不同的。我们证明了在能量平衡MDPs中决定一个状态是否是几乎肯定获胜(即以1的概率获胜)的问题属于NP cap coNP,而在均值回报平衡MDPs中,这个问题可以在多项式时间内解决,改进了最近的PSPACE上界。

作者:Krishnendu Chatterjee and Laurent Doyen

论文ID:1104.2909

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2011-04-18

PDF 下载: 英文版 中文版pdf翻译中