一种对手感知的强化学习方法：通过最大化互信息指标实现团队对团队多车追逐。-arXiv论文预印本中文版

一种对手感知的强化学习方法：通过最大化互信息指标实现团队对团队多车追逐。

摘要：智慧城市中的追逐逃避游戏对多车辆追逐（MVP）问题带来了深远影响，特别是在警车合作追捕可疑车辆时。现有的MVP问题研究往往将逃避车辆设置为随机移动或按照固定指定路线移动。对手建模方法已经在处理由对手产生的非平稳性方面证明了相当大的潜力。然而，其中大多数关注的是两人竞争性游戏和没有环境干扰的简单场景。本文考虑了复杂的城市交通场景中的团队对团队多车辆追逐（T2TMVP）问题，其中逃避车辆采用预先训练的动态策略来智能执行决策。为了解决这个问题，我们提出了一种通过最大化互信息指标（OARLM2I2）的对手感知强化学习方法，以提高复杂环境中的追捕效率。首先，提出了一种基于顺序编码的对手联合策略建模（SEOJSM）机制，用于生成逃避车辆的联合策略模型，该模型可以辅助基于深度Q网络（DQN）的多Agent决策过程。然后，我们设计了一个综合考虑来自环境的反馈奖励和对手联合策略模型有效性的互信息统一损失，来更新追捕车辆的决策过程。基于SUMO的广泛实验证明，我们的方法在减少追捕时间方面平均优于其他基线方法21.48\%。代码可在以下网址找到：https://github.com/ANT-ITS/OARLM2I2。

作者：Qinwen Wang, Xinhang Li, Zheng Yuan, Yiying Yang, Chen Xu and Lin Zhang

论文ID：2210.13015

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-10-25

PDF 下载： 英文版中文版pdf翻译中