基于贪婪的价值表示法在多智能体强化学习中的最优协调
摘要:使用线性值分解(LVD)或单调值分解(MVD)的多智能体强化学习方法由于联合Q值函数的表示限制而遭受相对过度泛化的问题。因此,它们无法确保最优一致性(即个体贪婪动作与最大真实Q值之间的对应关系)。本文推导了LVD和MVD的联合Q值函数的表达式,并根据表达式绘制了一个转换图。在该转换图中,每个自转换节点(STN)是一种可能的收敛状态。为了确保最优一致性,要求最优节点是唯一的STN。因此,我们提出了基于贪婪的值表示(GVR),通过较差的目标塑造将最优节点转变为STN,并通过优越的经验重播进一步消除非最优的STN。此外,GVR在最优性和稳定性之间实现了自适应的平衡。我们的方法在各种基准测试中优于现有的基线算法。在矩阵博弈的理论证明和实证结果中,GVR在足够探索下确保了最优一致性。
作者:Lipeng Wan, Zeyang Liu, Xingyu Chen, Han Wang, Xuguang Lan
论文ID:2112.04454
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2022-07-05