有限时间马尔可夫决策过程和简单随机博弈的策略复杂性-arXiv论文预印本中文版

有限时间马尔可夫决策过程和简单随机博弈的策略复杂性

摘要：马尔可夫决策过程（MDPs）和简单随机博弈（SSGs）提供了一个丰富的数学框架来研究与概率系统相关的许多重要问题。有限时间目标的MDPs和SSGs，其中目标是在给定的有限时间内最大化到达目标状态的概率，是一个经典且经过深入研究的问题。在这项工作中，我们考虑有限时间MDPs和SSGs的策略复杂性。我们证明，对于所有的$epsilon>0$，自然的基于计数的策略最多需要$log log (frac{1}{epsilon}) + n+1$个记忆状态，并且需要大小为$Omega(log log (frac{1}{epsilon}) + n)$的记忆。因此，我们的界限在渐近意义下是最优的。我们还研究了最优策略的周期性属性，并且展示了最优策略周期的次指数下界。

作者：Krishnendu Chatterjee and Rasmus Ibsen-Jensen

论文ID：1209.3617

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2012-09-18

PDF 下载： 英文版中文版pdf翻译中