一个用于库存管理的多功能多智能体强化学习基准测试

摘要:多智能体强化学习在多个智能体之间的共享环境中建模,他们相互作用并学习。这种模式适用于自动驾驶、量化交易和库存管理等各种工业场景。然而,将多智能体强化学习应用于这些实际场景面临许多挑战,如扩展性、复杂的智能体相互作用和非静态动态。为了促进多智能体强化学习在这些挑战上的研究,我们开发了MABIM(多智能体库存管理基准测试),它是一个多层次、多商品的库存管理模拟器,可以生成具有不同挑战性质的多样化任务。基于MABIM,我们评估了经典的运筹学方法和流行的多智能体强化学习算法在这些具有挑战性的任务上的性能,以突出它们的弱点和潜力。

作者:Xianliang Yang, Zhihao Liu, Wei Jiang, Chuheng Zhang, Li Zhao, Lei Song, Jiang Bian

论文ID:2306.07542

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-14

PDF 下载: 英文版 中文版pdf翻译中