动态深度强化学习在大规模区域交通信号控制中的应用

摘要:基于多智能体强化学习的交通信号控制成为近年来热门的研究课题。现有的多智能体强化学习方法往往倾向于通过考虑邻近交叉口间的通信来分散地学习最优控制策略。然而,多智能体增强学习中的非稳定特性可能导致收敛速度极慢甚至失败,特别是当交叉口数量较大时。现有的一种方法是将整个网络划分为若干个区域,每个区域利用集中式强化学习框架来加快收敛速度。然而,这种策略面临两个挑战:第一个是如何获得灵活的分区,第二个是如何搜索一个区域的交叉口的最优联合动作。本文提出了一种新的训练框架,其中我们的区域划分规则基于交叉口之间的相邻性,并提出了动态分支dueling Q网络(DBDQ)来高效搜索最优联合动作,并最大化区域奖励。实验结果使用真实数据集和合成数据集证明了我们的框架相对于其他现有框架的优越性。

作者:Hankang Gu, Shangbo Wang

论文ID:2303.11899

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-27

PDF 下载: 英文版 中文版pdf翻译中