N$^2$Q:可解释的多智能体 Q-Learning 的神经注意力加法模型
摘要:合作多智能体强化学习中广泛使用值分解,然而由于黑盒网络,其隐式赋分机制尚未被充分理解。在本研究中,我们通过广义可加模型家族研究了一个可解释的值分解框架。我们提出了一种名为神经注意力可加Q-learning(N$ ext{A}^ ext{2}$Q)的新方法,提供了合作行为的内在可理解性。N$ ext{A}^ ext{2}$Q可以通过丰富形状函数来显式分解由所有可能联合代理的政策引起的最优联合政策为各个代理的策略。此外,我们构建了身份语义来促进估计积分,同时使用全局状态和个体价值函数,其中局部语义掩码帮助我们诊断每个代理是否捕获相关任务信息。大量实验表明,N$ ext{A}^ ext{2}$Q在所有具有挑战性的任务上始终表现出比不同最先进方法更优的性能,并且具有人类般的可解释性。
作者:Zichuan Liu, Yuanyang Zhu, Chunlin Chen
论文ID:2304.13383
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-06-08