有限时间马尔可夫决策过程和简单随机博弈的策略复杂性

摘要:马尔可夫决策过程(MDPs)和简单随机博弈(SSGs)提供了一个丰富的数学框架来研究与概率系统相关的许多重要问题。有限时间目标的MDPs和SSGs,其中目标是在给定的有限时间内最大化到达目标状态的概率,是一个经典且经过深入研究的问题。在这项工作中,我们考虑有限时间MDPs和SSGs的策略复杂性。我们证明,对于所有的$epsilon>0$,自然的基于计数的策略最多需要$log log (frac{1}{epsilon}) + n+1$个记忆状态,并且需要大小为$Omega(log log (frac{1}{epsilon}) + n)$的记忆。因此,我们的界限在渐近意义下是最优的。我们还研究了最优策略的周期性属性,并且展示了最优策略周期的次指数下界。

作者:Krishnendu Chatterjee and Rasmus Ibsen-Jensen

论文ID:1209.3617

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2012-09-18

PDF 下载: 英文版 中文版pdf翻译中