TVDO:基于切比雪夫值分解优化的多智能体强化学习
摘要:协作多智能体强化学习(MARL)环境中,由于物理需求,最近流行采用集中式训练和分散式执行(CTDE)。然而,最大的困境是联合训练策略和个体优化行动的不一致性。在本文中,我们提出了一种新颖的基于价值的多目标学习方法,名为Tchebycheff值分解优化(TVDO),以克服上述困境。具体而言,设计了一种非线性的Tchebycheff聚合方法,通过严格限制个体行动价值偏差的上界,将MARL任务转化为多目标最优化问题。我们在理论上证明了TVDO很好地满足个体全局最大(IGM)的必要和充分条件,没有额外的限制,确保了全局和个体最优行动-价值函数之间的一致性。经验上,在攀登和处罚游戏中,我们验证了TVDO在从全局到个体价值分解的准确性,并保证了策略的一致性。此外,我们还在StarCraft II微观管理任务的挑战性场景中评估了TVDO,广泛的实验表明,TVDO比几种最先进的MARL方法实现了更具竞争力的性能。
作者:Xiaoliang Hu, Pengcheng Guo, Chuanwei Zhou, Tong Zhang, Zhen Cui
论文ID:2306.13979
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-06-27