并发可达性与安全博弈策略改进
摘要:并发游戏是在图上进行的游戏。在每一轮游戏中,每个玩家同时独立地选择一个行动;这些行动共同决定了转移到下一个状态。两个基本目标是安全目标(始终保持在给定的状态集合中)和其对偶目标(达到给定的状态集合)。首先,我们证明了在并发可达性游戏中,对于所有 $epsilon>0$,存在无记忆 $epsilon$-最优策略。无记忆策略是独立于游戏历史的,而 $epsilon$-最优策略实现的目标的概率与游戏的值之间的差距小于 $epsilon$。与之前的证明方法相比,我们的证明更加基础和组合性质。其次,我们提出了一种用于具有可达性目标的并发游戏的策略改进(即策略迭代)算法。然后,我们提出了一种用于具有安全目标的并发游戏的策略改进算法。我们的算法产生了一系列的玩家1策略,这些策略确保了获胜的概率单调收敛到游戏的值。我们的结果很重要,因为安全游戏的策略改进算法首次提供了一种从下方近似求解并发安全游戏的方法。之前的方法只能从一方向近似求解这些游戏,而且由于没有已知的收敛速度,它们并没有提供一种实际解决这些游戏的方法。
作者:Krishnendu Chatterjee and Luca de Alfaro and Thomas A. Henzinger
论文ID:1201.2834
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2012-07-03