MatrixWorld:一个用于安全多智能体协调和自适应课程的追逐逃避平台

摘要:多智能体强化学习(Multi-agent reinforcement learning,MARL)在解决复杂的多智能体任务方面取得了令人鼓舞的成果。然而,MARL策略的安全性是阻碍其实际应用的一个关键问题。此外,目前常见的多智能体基准测试在保证MARL研究安全方面的支持有限,因为仅仅依靠碰撞导致的负奖励无法确保MARL策略的安全性。因此,在本研究中,我们提出了一个基于通用追逐-回避游戏的约束安全多智能体环境:MatrixWorld。具体而言,我们提出了一个针对软件实现安全多智能体环境的约束安全多智能体行动执行模型。此外,MatrixWorld是一个轻量级协同进化框架,用于学习追逐任务、回避任务或两者兼而有之,其中设计了更多基于不同安全实际意义的追逐-回避变体。作为一个简要的调查,我们回顾并分析了多智能体环境中的协同进化机制,清楚地揭示了其与自我学习、自我对弈、武器竞赛和对抗学习的关系。因此,我们认为MatrixWorld可以作为自适应课程研究的第一个环境,可以快速验证和深入理解各种想法。最后,基于关于MARL安全性和自适应课程的上述问题,我们的实验表明一般MARL仅依靠负奖励碰撞难以保证安全多智能体协调,并展示了MatrixWorld在自适应课程学习方面的潜力,提供成功的多智能体对抗学习和武器竞赛的实践建议。

作者:Lijun Sun, Yu-Cheng Chang, Chao Lyu, Chin-Teng Lin, and Yuhui Shi

论文ID:2307.14854

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2023-07-28

PDF 下载: 英文版 中文版pdf翻译中