将传统的车头间隔控制与强化学习相结合,以避免公交车群集现象。

摘要:公交车堆积是破坏公共交通系统效率和稳定性的自然现象。主流解决方案是通过控制公交车在某些站点停留更长时间来解决。现有的控制方法包括传统方法提供一个计算控制时间的公式,以及通过与系统重复交互来确定控制策略的强化学习方法。在本文中,我们提出了一个集成近端策略优化模型和双道行间(IPPO-DH)。IPPO-DH将传统行间控制与强化学习相结合,从而获得两种算法的优点-在正常环境下更高效,在恶劣环境下更稳定。为了证明这种优势,我们设计了一个公交车模拟环境,并将IPPO-DH与强化学习和几种传统方法进行比较。结果表明,所提出的模型在避免强化学习方法在某些环境下的不稳定性的同时,保持了传统方法的应用价值,并且相比传统控制方法提高了效率,为现实世界的公交运输系统优化提供了新的视角。

作者:Xiheng Wang

论文ID:2210.00201

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2022-10-04

PDF 下载: 英文版 中文版pdf翻译中