关于无记忆量化目标

摘要:在图上的双人游戏中,玩家们通过构建游戏图中的无限路径并根据无限路径上的回报函数获得奖励。在加权图上,典型且最为研究的回报函数计算路径上的奖励的极限平均或折现和。除了它们简单的定义外,这两个回报函数具有无记忆最优策略总是存在的属性。为了构建其他简单的回报函数,我们定义了一类回报函数,它计算奖励的(无限)加权平均。这个新的类包含了极限平均和折现和的函数,并且我们证明它们是这个类中唯一能引导无记忆最优策略的成员,从而表明基本上没有其他简单的回报函数。

作者:Krishnendu Chatterjee and Laurent Doyen and Rohit Singh

论文ID:1104.3211

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2011-04-19

PDF 下载: 英文版 中文版pdf翻译中