通过多时间尺度学习处理去中心化合作多智能体深度强化学习中的非平稳性
摘要:分散协作的多智能体深度强化学习(MARL)可以成为一种通用的学习框架,特别适用于无法或不切实际进行集中训练的情况。分散深度MARL面临的一个关键挑战是多个智能体同时学习时学习环境的非稳定性。一种常用且有效的分散MARL方案是独立学习,其中智能体独立地更新其策略。我们首先展示了独立学习并不总是收敛的,而顺序学习将智能体的策略一个接一个地更新,保证了收敛到逐个智能体的最优解。在顺序学习中,当一个智能体更新其策略时,其他智能体的策略保持固定,减轻了由于其他智能体策略的同时更新而引起的非稳定性挑战。然而,由于一次只有一个智能体在学习,顺序学习可能会很慢,因此也不总是切实可行。在这项工作中,我们提出了一种基于多时间尺度学习的分散协作MARL算法。在多时间尺度学习中,所有智能体同时学习,但学习速率不同。在我们提出的方法中,当一个智能体更新其策略时,其他智能体也可以以较慢的速率更新其策略。这加快了顺序学习的速度,同时最小化了其他智能体同时更新造成的非稳定性。多时间尺度学习在epymarl(Papoudakis等,2020)基准测试中优于最先进的分散学习方法,在一组具有挑战性的多智能体协作任务上表现出色。这可以看作是基于多时间尺度学习的更一般的分散协作深度MARL方法的第一步。
作者:Hadi Nekoei, Akilesh Badrinaaraayanan, Amit Sinha, Mohammad Amini, Janarthanan Rajendran, Aditya Mahajan, Sarath Chandar
论文ID:2302.02792
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-21