引导无悔学习者走向最优均衡-arXiv论文预印本中文版

引导无悔学习者走向最优均衡

摘要：通过非负支付，在广义形式博弈中引导无遗憾学习代理人玩出理想均衡的问题。我们发现，如果总预算（在每次迭代中）是有限的，那么引导是不可能的。然而，我们证明，通过使平均实际支付趋近于零，引导是可能的。在完全反馈设置中，也就是在每个时间步骤观察到玩家的完整策略时，可以通过恒定的每次迭代支付来实现。在强化信号反馈设置中，也就是只能观察到通过博弈树的轨迹时，使用恒定的每次迭代支付是不可能的，但是如果允许每次迭代的最大支付随时间增长，同时保持平均实际支付消失的特性，则引导是可能的。我们通过实验证明了引导在大规模广义形式博弈中的有效性，并展示了我们的框架与最优机制设计和信息设计的关系。

作者：Brian Hu Zhang, Gabriele Farina, Ioannis Anagnostides, Federico Cacciamani, Stephen Marcus McAleer, Andreas Alexander Haupt, Andrea Celli, Nicola Gatti, Vincent Conitzer, Tuomas Sandholm

论文ID：2306.05221

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2023-06-09

PDF 下载： 英文版中文版pdf翻译中