拥塞感知路径协调博弈与马尔可夫决策过程动力学-arXiv论文预印本中文版

拥塞感知路径协调博弈与马尔可夫决策过程动力学

摘要：针对来自机器人出租车、仓库管理和混合车辆路径规划问题的路径协调问题，我们建立了一个模型，将一组异质参与者作为拥塞博弈在马尔科夫决策过程动态下应对随机需求。参与者共享相同的状态和动作空间，但具有独特的转移动力学，每个参与者的独特成本是关于联合状态-动作概率分布的函数。对于一类参与者成本函数，我们形式化了参与者特定的优化问题，证明了纳什均衡与潜在最小化问题的解之间的等价性，并推导出求解纳什均衡的动态规划方法。我们将这个博弈应用于多智能体路径协调模型，并引入基于拥塞的成本函数，使参与者能够完成个体任务同时避免与对手发生拥塞。最后，我们提出了一种学习算法，用于找到具有线性复杂度的参与者数量的纳什均衡。我们在多机器人仓库路径协调问题上展示了我们的博弈模型，其中机器人自主地取回和送达包裹，同时避免拥塞路径。

作者：Sarah H.Q. Li and Dan Calderone and Behcet Acikmese

论文ID：2203.12133

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-07-06

PDF 下载： 英文版中文版pdf翻译中