顺序游戏中计算对策的持续深度限制响应
摘要:限制性前瞻博弈求解是使得在不完全信息游戏中战胜专家人类的突破。现有的这类算法假设所有玩家都是完全理性的,并且不允许对对手的缺点进行明确的建模和利用。因此,即使是非常弱的对手也只能以非常缓慢的速度与这些强大的方法达成平局或输掉比赛。我们提出了第一个允许将对手模型合并到限制性前瞻博弈求解中的算法。该算法仅使用单个(最优)值函数的近似,有效地利用任意对对手策略的估计。它保证了玩家的最坏情况损失有界。我们还展示了使用现有的解决工具存在问题以及为什么我们需要保留先前解决的游戏部分。在三个不同的游戏上的实验证明,我们的算法实现了达到最大可能利用的一半以上,几乎不冒任何损失的风险。
作者:David Milec, Ondv{r}ej Kub''iv{c}ek, Viliam Lis''y
论文ID:2112.12594
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-01-27