Stackelberg元学习在多机器人轨迹规划中的战略指导
摘要:堆场引导需要一个领导机器人代理来协助一个从属机器人代理合作到达目标地点。然而,当领导者为不同的从属机器人提供服务并且对从属机器人的信息不完整时,规划合作变得困难。因此,有必要学习和快速适应不同的合作计划。我们开发了一种Stackelberg元学习方法来解决这个挑战。我们首先将引导轨迹规划问题形式化为一个动态Stackelberg博弈,以捕捉领导者与从属者的相互作用。然后,我们利用元学习为不同的从属者开发合作策略。领导者从规定的一组从属者中学习一个元最佳反应模型。当特定的从属者发起引导查询时,领导者通过少量的学习数据快速适应到特定从属者模型,并使用该模型进行轨迹引导。我们使用模拟来阐述我们的方法比其他学习方法在学习从属者行为方面具有更好的泛化和适应性能。通过与零引导情景的比较,也证明了引导的价值和有效性。
作者:Yuhan Zhao, Quanyan Zhu
论文ID:2211.13336
分类:Robotics
分类简称:cs.RO
提交时间:2023-08-01