加速多智体经验回放与缓存局部感知优先级

摘要:多智能体经验回放(MER)是离策略强化学习算法的关键组成部分。通过记忆和重复使用过去的经验,经验回放显著提高了强化学习算法的稳定性和学习效率。在许多情况下,在集中训练和分散执行(CTDE)范 Paradigm下,多个智能体在共享环境中进行在线训练。当前的多智能体强化学习(MARL)算法在采样阶段考虑经验回放,使用均匀采样或基于优先权权重来提高过渡数据样本效率。然而,将每个智能体的过渡数据历史移动到处理器内存层次结构中会导致性能限制。此外,由于智能体的过渡每个迭代都在不断更新,有限的缓存容量会导致缓存未命中增加。为此,我们提出了一种名为\name 的方法,它重复使用过渡(经验)窗口的$n$步,以改善缓存局部性并最小化过渡数据的移动,而不是在每一步都采样新的过渡。具体而言,我们的优化使用优先权权重选择过渡,以便只有高优先级的过渡会经常被重复使用,从而提高了缓存性能。我们在“捕食者-猎物”环境上的实验结果证明了基于优先权权重重新使用关键过渡的有效性,与现有的优先级MER算法相比,我们观察到训练时间总体减少了25.4%(对于32个智能体),而平均奖励没有明显下降。

作者:Kailash Gogineni, Yongsheng Mei, Peng Wei, Tian Lan and Guru Venkataramani

论文ID:2306.00187

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2023-06-02

PDF 下载: 英文版 中文版pdf翻译中