在分散式POMDP中通过离散通信最小化回报差距
摘要:部分可观察马尔可夫决策过程中,通信对解决合作多智能体强化学习任务至关重要。现有的方法通常依赖于黑盒方法将本地信息/特征编码为与其他智能体共享的信息。然而,这些黑盒方法无法对预期回报提供任何量化保证,并且通常导致生成具有高通信开销和较差可解释性的连续信息。在本文中,我们建立了一个上界,用于描述理想策略与具有离散通信的最优部分可观察策略之间的回报差距。这个结果使我们能够将多智能体通信重新转化为每个智能体的本地观察中的一种新颖的在线聚类问题,其中消息作为聚类标签,回报差距的上界作为聚类损失。通过最小化这个上界,我们提出了一种非常简单的多智能体通信中消息生成函数的设计,并将其与使用正则化信息最大化损失函数的强化学习相结合。评估结果表明,所提出的离散通信显著优于现有的多智能体通信基准,并可以使用自然可解释的几位信息实现接近最优的回报。
作者:Jingdi Chen, Tian Lan
论文ID:2308.03358
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-08-31