分布式多智能体优化的社会最优均衡选择

摘要:通过重复交互学习玩家如何在一般和协调游戏中玩出社会最优的纯策略纳什均衡(PSNE),这是一个未解答的问题。游戏的社会最优是稳定的帕累托最优状态,能够为所有玩家的收益之和(社会福利)提供最大回报,并且始终存在。我们考虑每个玩家只能访问自己的效用(或支付)函数但能够与其他玩家交换信息的有限重复游戏。我们开发了一种基于遗憾匹配(RM)的新算法,用于计算一个有效的PSNE解,从而在长期内接近期望的帕累托最优结果,从而实现最高的社会福利。我们提出的学习过程遵循遗憾最小化的框架,但在以下三个主要方面进行了扩展:(1)代理使用全局而不是局部效用来计算遗憾,(2)每个代理维持一个小且减小的探索概率,以便探索各种PSNE,(3)代理保持到目前为止取得最佳全局效用的行动,而不考虑遗憾。我们证明这三个扩展使得算法能够选择稳定的社会最优均衡,而不是像传统的RM方法那样收敛到任意或循环均衡。我们通过一系列多智能体分布式控制的应用程序来证明我们方法的有效性,包括一个大规模资源分配游戏和一个没有高效(多项式)解决方案的难解组合任务分配问题。

作者:Duong Nguyen, Langford White, Hung Nguyen

论文ID:2307.13242

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-07-26

PDF 下载: 英文版 中文版pdf翻译中