能量和均值回报平等的马尔可夫决策过程-arXiv论文预印本中文版

能量和均值回报平等的马尔可夫决策过程

摘要：MDPs中的能量平衡和均值回报目标的决策过程研究，均值回报和能量目标可以用来建模定量资源约束。能量条件要求资源水平不低于0，均值回报条件要求资源消耗的极限平均值在一个阈值范围内。尽管这两个经典条件在两人博弈中是等价的，我们证明它们在MDPs中是不同的。我们证明了在能量平衡MDPs中决定一个状态是否是几乎肯定获胜（即以1的概率获胜）的问题属于NP cap coNP，而在均值回报平衡MDPs中，这个问题可以在多项式时间内解决，改进了最近的PSPACE上界。

作者：Krishnendu Chatterjee and Laurent Doyen

论文ID：1104.2909

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2011-04-18

PDF 下载： 英文版中文版pdf翻译中