进化深度强化学习利用精英缓冲区:连续控制任务中与进化算法相结合的新方法

摘要:深度强化学习在许多控制任务中有很多应用和成功,但仍然存在许多关键问题和限制,包括稀疏奖励的时间信用分配、缺乏有效的探索,以及对问题的超参数极其敏感的易碎收敛性。深度强化学习在连续控制中的问题,以及进化算法在解决其中一些问题方面的成功,引发了进化强化学习的想法,这引起了许多争议。尽管在该领域中的一些研究中取得了成功的结果,但对这些问题及其限制的适当解决方案尚未提出。本研究旨在进一步研究深度强化学习和进化计算两个领域的结合效率,并为改进方法和现有挑战迈出一步。通过从人脑的交互式学习能力和假设性结果中获得启示,"使用精英缓冲区的进化深度强化学习"算法引入了一种新的机制。在这种方法中,利用精英缓冲区(受到人脑中基于经验泛化学习的启发)与交叉和变异算子、以及连续几代中的交互式学习相结合,提高了连续控制领域的效率、收敛性和适当进展。根据实验结果,该方法在复杂度和维度较高的环境中胜过其他知名方法,对解决上述问题和限制更为优越。

作者:Marzieh Sadat Esmaeeli, Hamed Malek

论文ID:2209.08480

分类:Neural and Evolutionary Computing

分类简称:cs.NE

提交时间:2022-09-20

PDF 下载: 英文版 中文版pdf翻译中