多样性即力量:通过交互式多个AI的强化学习掌握完整足球比赛

摘要:用强大而丰富的策略训练多智能体环境中的AI仍然是深度强化学习(DRL)中的一个重要研究课题。AI的强度与其策略的多样性密切相关,这种关系可以指导我们训练具有强大而丰富的策略的AI。为了证明这一观点,我们提出了多样性即力量(Diversity is Strength, DIS) ,这是一种能够同时训练多种AI的新型DRL训练框架。这些AI通过一个相互连接的历史模型池结构相互关联,从而增强了它们的能力和策略多样性。我们还设计了一个模型评估和筛选方案,以选择最佳模型来丰富模型池并获得最终的AI。所提出的训练方法提供了多样化、可推广和强大的AI策略,而不需要使用人类数据。我们在基于Google Research Football (GRF)的AI竞赛中测试了我们的方法,并赢得了5v5和11v11赛道。该方法使得GRF AI首次在复杂的多智能体环境中,同时在5v5和11v11赛道上具有高水平。行为分析显示,经过训练的AI具有丰富的策略,消融实验证明了设计的模块对训练过程的好处。

作者:Chenglu Sun, Shuo Shen, Sijia Xu, Weidong Zhang

论文ID:2306.15903

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-29

PDF 下载: 英文版 中文版pdf翻译中