基于多智能体深度强化学习的网约车服务在线匹配优化
摘要:滴滴类型服务通过移动互联网有效地连接司机和乘客,正在改变人们的出行方式。在线匹配空闲司机和等待乘客是滴滴服务系统中最关键的组成部分之一。平均接送距离或时间是系统效率的重要指标,因为它影响着乘客的等待时间和司机的利用率。如果平台在匹配池中积累更多的空闲司机和等待乘客,可以实现更有效的二部匹配(平均接送时间更短)。特定的乘客请求也可以从延迟匹配中受益,因为在等待几秒钟后,他/她可以与更接近的空闲司机匹配。受到延迟匹配的潜在好处的启发,本文建立了一个两阶段的框架,结合了组合优化和多智能体深度强化学习方法。多智能体强化学习方法用于动态确定每个乘客请求的延迟时间(或每个请求进入匹配池的时间),而组合优化则在匹配池中进行最佳二部匹配,将空闲司机和等待乘客匹配起来。我们开发了两个强化学习方法,即时空多智能体深度Q学习(ST-M-DQN)和时空多智能体演员-评论家(ST-M-A2C)。通过对一个精心设计的模拟器进行大量实证实验,我们展示了该框架能够显著提高系统性能。
作者:Jintao Ke, Feng Xiao, Hai Yang and Jieping Ye
论文ID:1902.06228
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2019-02-19