近似计算单计数器MDP和随机博弈的终止值
摘要:OC-MDPs和OC-SSGs都是在传统的一计数器自动机(等价于带有1字母栈字母的下推自动机)的转换图上进行的1人、2人交替的零和随机游戏。分析和验证这些游戏的关键目标是终止目标,其中玩家旨在最大化(或最小化)从给定控制状态和给定计数器值开始命中计数器值为0的概率。最近,我们对OC-MDPs(和OC-SSGs)的定性决策问题(“最佳终止值是否等于1?”)进行了研究,并证明它们在多项式时间内(在NP和coNP中分别)是可判定的。然而,定量决策和近似问题(“最佳终止值是否等于p?”或“在 ε 的误差范围内近似终止值”)要困难得多。这是因为最优策略可能不存在,并且即使存在,它们也可能具有非常复杂的结构。因此,这些定量终止问题是否可计算一直是未知的。在本文中,我们证明了OC-MDPs和OC-SSGs的所有定量近似问题都是可计算的。具体而言,对于给定的OC-SSG和给定的ε > 0,我们可以计算一个值v,该值在加性误差 ε 内近似了OC-SSG终止游戏的值,并且我们还可以计算游戏中两个玩家的 ε-最优策略。在我们的证明中,一个关键因素是一个微妙的轮盘赌,它是通过解特定的LPs得到的,我们可以将其与最大化OC-MDP关联起来。应用Azuma不等式于这些轮盘赌可以得到OC-MDP的“富人策略”达到ε-最优时的可计算上界。
作者:Tom''av{s} Br''azdil, V''aclav Brov{z}ek, Kousha Etessami, Anton''in Kuv{c}era
论文ID:1104.4978
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2011-07-21