基于贪婪的价值表示法在多智能体强化学习中的最优协调-arXiv论文预印本中文版

基于贪婪的价值表示法在多智能体强化学习中的最优协调

摘要：使用线性值分解（LVD）或单调值分解（MVD）的多智能体强化学习方法由于联合Q值函数的表示限制而遭受相对过度泛化的问题。因此，它们无法确保最优一致性（即个体贪婪动作与最大真实Q值之间的对应关系）。本文推导了LVD和MVD的联合Q值函数的表达式，并根据表达式绘制了一个转换图。在该转换图中，每个自转换节点（STN）是一种可能的收敛状态。为了确保最优一致性，要求最优节点是唯一的STN。因此，我们提出了基于贪婪的值表示（GVR），通过较差的目标塑造将最优节点转变为STN，并通过优越的经验重播进一步消除非最优的STN。此外，GVR在最优性和稳定性之间实现了自适应的平衡。我们的方法在各种基准测试中优于现有的基线算法。在矩阵博弈的理论证明和实证结果中，GVR在足够探索下确保了最优一致性。

作者：Lipeng Wan, Zeyang Liu, Xingyu Chen, Han Wang, Xuguang Lan

论文ID：2112.04454

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-07-05

PDF 下载： 英文版中文版pdf翻译中