TVDO：基于切比雪夫值分解优化的多智能体强化学习-arXiv论文预印本中文版

TVDO：基于切比雪夫值分解优化的多智能体强化学习

摘要：协作多智能体强化学习(MARL)环境中，由于物理需求，最近流行采用集中式训练和分散式执行(CTDE)。然而，最大的困境是联合训练策略和个体优化行动的不一致性。在本文中，我们提出了一种新颖的基于价值的多目标学习方法，名为Tchebycheff值分解优化(TVDO)，以克服上述困境。具体而言，设计了一种非线性的Tchebycheff聚合方法，通过严格限制个体行动价值偏差的上界，将MARL任务转化为多目标最优化问题。我们在理论上证明了TVDO很好地满足个体全局最大(IGM)的必要和充分条件，没有额外的限制，确保了全局和个体最优行动-价值函数之间的一致性。经验上，在攀登和处罚游戏中，我们验证了TVDO在从全局到个体价值分解的准确性，并保证了策略的一致性。此外，我们还在StarCraft II微观管理任务的挑战性场景中评估了TVDO，广泛的实验表明，TVDO比几种最先进的MARL方法实现了更具竞争力的性能。

作者：Xiaoliang Hu, Pengcheng Guo, Chuanwei Zhou, Tong Zhang, Zhen Cui

论文ID：2306.13979

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2023-06-27

PDF 下载： 英文版中文版pdf翻译中