近似计算单计数器MDP和随机博弈的终止值-arXiv论文预印本中文版

近似计算单计数器MDP和随机博弈的终止值

摘要：OC-MDPs和OC-SSGs都是在传统的一计数器自动机（等价于带有1字母栈字母的下推自动机）的转换图上进行的1人、2人交替的零和随机游戏。分析和验证这些游戏的关键目标是终止目标，其中玩家旨在最大化（或最小化）从给定控制状态和给定计数器值开始命中计数器值为0的概率。最近，我们对OC-MDPs（和OC-SSGs）的定性决策问题（“最佳终止值是否等于1？”）进行了研究，并证明它们在多项式时间内（在NP和coNP中分别）是可判定的。然而，定量决策和近似问题（“最佳终止值是否等于p？”或“在 ε 的误差范围内近似终止值”）要困难得多。这是因为最优策略可能不存在，并且即使存在，它们也可能具有非常复杂的结构。因此，这些定量终止问题是否可计算一直是未知的。在本文中，我们证明了OC-MDPs和OC-SSGs的所有定量近似问题都是可计算的。具体而言，对于给定的OC-SSG和给定的ε > 0，我们可以计算一个值v，该值在加性误差 ε 内近似了OC-SSG终止游戏的值，并且我们还可以计算游戏中两个玩家的 ε-最优策略。在我们的证明中，一个关键因素是一个微妙的轮盘赌，它是通过解特定的LPs得到的，我们可以将其与最大化OC-MDP关联起来。应用Azuma不等式于这些轮盘赌可以得到OC-MDP的“富人策略”达到ε-最优时的可计算上界。

作者：Tom''av{s} Br''azdil, V''aclav Brov{z}ek, Kousha Etessami, Anton''in Kuv{c}era

论文ID：1104.4978

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2011-07-21

PDF 下载： 英文版中文版pdf翻译中