对手感知的基于角色的学习在团队竞争性马尔可夫博弈中
摘要:学习多智能体Markov博弈中团队竞争是多智能体强化学习领域中的一个日益重要的设置,因为它在建模许多现实生活情况中具有广泛的适用性。由于多智能体演员-评论家方法在学习团队竞争环境中学习最优策略方面具有灵活性,能够学习代理特定的评论家函数并从其他智能体中学习,因此它们是最合适的技术类别。在许多现实世界的团队竞争场景中,智能体角色往往是自然而然地出现的,以协助团队成员之间的协调与合作。然而,现有的学习新兴角色的方法很大程度上依赖于Q学习设置,而该设置不允许学习代理特定的Q函数。本文提出了一种名为RAC的新技术,用于学习多样且动态的团队中智能体的新兴角色。在所提出的方法中,智能体还可以从预测对手团队智能体的角色中受益。RAC使用带有角色编码器和对手角色预测器的演员-评论家框架来学习最优策略。通过使用两种游戏进行实验,结果表明,RAC学习到的策略比使用最先进的基线算法学习到的策略获得更高的奖励。此外,实验表明,团队中的智能体学习到了多样且对手感知的策略。
作者:Paramita Koley, Aurghya Maiti, Niloy Ganguly and Sourangshu Bhattacharya
论文ID:2301.05873
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-01-18