引导无悔学习者走向最优均衡

摘要:通过非负支付,在广义形式博弈中引导无遗憾学习代理人玩出理想均衡的问题。我们发现,如果总预算(在每次迭代中)是有限的,那么引导是不可能的。然而,我们证明,通过使平均实际支付趋近于零,引导是可能的。在完全反馈设置中,也就是在每个时间步骤观察到玩家的完整策略时,可以通过恒定的每次迭代支付来实现。在强化信号反馈设置中,也就是只能观察到通过博弈树的轨迹时,使用恒定的每次迭代支付是不可能的,但是如果允许每次迭代的最大支付随时间增长,同时保持平均实际支付消失的特性,则引导是可能的。我们通过实验证明了引导在大规模广义形式博弈中的有效性,并展示了我们的框架与最优机制设计和信息设计的关系。

作者:Brian Hu Zhang, Gabriele Farina, Ioannis Anagnostides, Federico Cacciamani, Stephen Marcus McAleer, Andreas Alexander Haupt, Andrea Celli, Nicola Gatti, Vincent Conitzer, Tuomas Sandholm

论文ID:2306.05221

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-06-09

PDF 下载: 英文版 中文版pdf翻译中