分布式分层对抗学习:自主交叉口管理中的多智能体交互
摘要:自治交叉口管理(AIM)为连接自动化车辆(CAV)提供了一种无信号的交叉口调度范式。分布式学习方法已经成为AIM研究的一个吸引人的分支。与集中式AIM相比,分布式AIM可以以更低的成本部署到CAVs上,并且与基于规则和优化的方法相比,基于学习的方法可以更灵活地处理各种复杂的实时交叉口场景。深度强化学习(DRL)是解决AIM问题的分布式学习的主流方法。然而,多个代理的大规模同时互动决策以及互动引起的环境的快速变化对DRL提出了挑战,使得其奖励曲线震荡且难以收敛,最终导致在安全性和计算效率上的妥协。因此,我们提出了一种非强化学习的学习框架,称为分布式分层对抗学习(D-HAL)。该框架包括一个演员网络,用于在每个步骤生成每个CAV的动作。直接鉴别器评估演员网络在当前步骤的交互性能,而最终鉴别器对一系列交互的整体轨迹进行最终评估。在这个框架中,行为的长期结果不再通过折扣奖励来激励演员网络,而是通过一个设计的具有鉴别性标签的对抗损失函数来实现。所提出的模型在一个四路六车道的交叉口上进行评估,并在确保安全和减少行程时间方面优于几种最先进的方法。
作者:Guanzhou Li, Jianping Wu, Yujing He
论文ID:2303.02630
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2023-03-07