局部观察随机博弈:当信念失败时如何取胜

摘要:两人有限状态随机博弈在图上的部分观察中, 在图的每个状态中, 玩家同时选择一个动作, 并且他们的联合动作确定了继任状态的概率分布. 我们考虑到达目标要求, 玩家1试图确保目标状态被几乎肯定或者积极访问. 基于信息, 游戏可以是单方面的, 要么是玩家1或者是玩家2有部分观察, 或者是双方都有部分观察. 基于随机性, 玩家可能 (a)不被允许使用随机性 (纯策略), 或者(b)可以选择一个动作的概率分布, 但实际的随机选择是不可见的 (行动不可见), 或者(c)可以使用完全的随机化. 对于纯策略, 我们的结果如下: (1) 对于一方有玩家2完美观察的博弈, 我们证明基于信念的策略是不充分的, 并对几乎肯定和积极获胜策略的内存提供指数上界; 我们证明了对于玩家1决定几乎肯定和积极获胜策略的存在性问题是EXPTIME完全的, 并提出了规避明确的指数构造的符号算法. (2) 对于一方有玩家1完美观察的博弈, 我们证明非元记忆既是几乎肯定又是积极获胜策略的必要且充分条件. (3) 我们证明了对于双方都有部分观察的情况下, 有限记忆策略对于积极和几乎肯定获胜是充分的. 我们建立了几乎肯定获胜问题对于纯策略和使用行动不可见的随机策略的等价性结果. 我们的等价结果揭示了文献中先前结果的严重缺陷: 我们证明了几乎肯定获胜的非元记忆下界, 而先前声称有指数上界.

作者:Krishnendu Chatterjee and Laurent Doyen

论文ID:1107.2141

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2011-07-13

PDF 下载: 英文版 中文版pdf翻译中