基于随机图神经网络的车联网多智能体强化学习中的价值分解

摘要:自主驾驶在过去几十年取得了令人难以置信的进展,而多智能体强化学习(MARL)则有望满足无线连接的车辆网络中自主车辆控制的基本需求。在MARL中,如何有效地将全局反馈分解为各个个体智能体的相对贡献是最基本的问题之一。然而,由于车辆运动和无线干扰引起的环境不稳定性可能会显著塑造智能体之间的时变拓扑关系,从而使价值分解(VD)变得具有挑战性。因此,为了应对这种令人讨厌的不稳定性,设计一个动态的VD框架变得至关重要。因此,本文提出了一种新颖的Stochastic VMIX(SVMIX)方法,在VD过程中考虑动态拓扑特征,并将相关组件纳入多智能体演员-评论家架构中。具体而言,利用随机图神经网络(SGNN)有效地捕捉拓扑特征的底层动态性,并提高VD对环境不稳定性的灵活性。最后,通过大量的仿真验证了SVMIX的优越性。

作者:Baidi Xiao, Rongpeng Li, Fei Wang, Chenghui Peng, Jianjun Wu, Zhifeng Zhao, and Honggang Zhang

论文ID:2303.13213

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2023-03-24

PDF 下载: 英文版 中文版pdf翻译中