突然政策变化下的快速队友适应
摘要:合作多智能体强化学习 (MARL) 中,一个智能体与团队成员共同协作达到共享目标时,由于团队成员策略的改变,可能会导致非稳态问题的存在。先前的研究主要集中在训练阶段或跨时序对团队成员策略的改变上,而忽略了团队成员在一个时间片内策略可能突然发生改变的事实。这可能导致协调不当和性能下降。我们将这个问题形式化为一个开放式Dec-POMDP,我们通过控制一些智能体与未受控制的团队成员协作来解决这个问题,这些团队成员的策略可能在一个时间片内改变。然后,我们开发了一个名为快速团队适应 (Fastap) 的新框架来解决这个问题。具体地,我们首先训练多功能团队成员的策略,并通过中餐馆过程 (CRP) 将它们分配到不同的聚类中。然后,我们训练控制的智能体与采样的未受控制的团队成员协调,通过捕捉它们的身份作为上下文进行快速适应。最后,每个智能体将其本地信息应用于预测团队成员的上下文,相应地做出决策。这个过程交替进行,形成一个能够适应分布式执行阶段任何团队成员的稳健策略。我们在多个多智能体基准测试中展示了Fastap在稳态和非稳态场景中比多个基准算法拥有更高的性能。
作者:Ziqian Zhang, Lei Yuan, Lihe Li, Ke Xue, Chengxing Jia, Cong Guan, Chao Qian, Yang Yu
论文ID:2305.05911
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-05-11