将传统的车头间隔控制与强化学习相结合，以避免公交车群集现象。-arXiv论文预印本中文版

将传统的车头间隔控制与强化学习相结合，以避免公交车群集现象。

摘要：公交车堆积是破坏公共交通系统效率和稳定性的自然现象。主流解决方案是通过控制公交车在某些站点停留更长时间来解决。现有的控制方法包括传统方法提供一个计算控制时间的公式，以及通过与系统重复交互来确定控制策略的强化学习方法。在本文中，我们提出了一个集成近端策略优化模型和双道行间(IPPO-DH)。IPPO-DH将传统行间控制与强化学习相结合，从而获得两种算法的优点-在正常环境下更高效，在恶劣环境下更稳定。为了证明这种优势，我们设计了一个公交车模拟环境，并将IPPO-DH与强化学习和几种传统方法进行比较。结果表明，所提出的模型在避免强化学习方法在某些环境下的不稳定性的同时，保持了传统方法的应用价值，并且相比传统控制方法提高了效率，为现实世界的公交运输系统优化提供了新的视角。

作者：Xiheng Wang

论文ID：2210.00201

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-10-04

PDF 下载： 英文版中文版pdf翻译中