基于注意力的循环神经网络在随机部分可观测性下的多智能体强化学习
摘要:基于注意力机制的多智能体学习中的嵌入复现(AERIAL)以近似值函数处理随机部分可观测性。使用AERIAL,我们用学习到的多智能体复现表示替代真实状态,相较于基于状态的集中训练用于分散执行(CTDE),AERIAL考虑了更准确的关于分散智能体决策的信息。我们还介绍了MessySMAC,这是SMAC的修改版本,具有随机观测和初始状态中更高的方差,用于提供一个关于随机部分可观测性的更通用和可配置的基准。我们在Dec-Tiger以及各种SMAC和MessySMAC地图中评估了AERIAL,并将结果与基于状态的CTDE进行了对比。此外,我们还评估了AERIAL和基于状态的CTDE对MessySMAC中各种随机性配置的鲁棒性。
作者:Thomy Phan and Fabian Ritz and Philipp Altmann and Maximilian Zorn and Jonas N"u{ss}lein and Michael K"olle and Thomas Gabor and Claudia Linnhoff-Popien
论文ID:2301.01649
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-06-06