强化学习中多样重放的泛化作用

摘要:在强化学习(RL)中,许多算法的关键组成部分是探索策略和重放缓冲区。这些策略调节对环境数据的收集和训练,并在RL文献中进行了广泛的研究。在本文中,我们研究了这些组件在多任务RL泛化方面的影响。我们研究了这样一个假设:从训练环境收集和训练更多多样化的数据将改善对新任务的零-shot泛化能力。我们在数学上提出了动机,并通过实验证明,在回放缓冲区中增加过渡的多样性可以改善对在训练过程中"可达"的任务的泛化能力。此外,我们还通过实验证明,这种策略对于类似但"不可达"的任务的泛化也有改善,可能是由于学习到的潜在表示的泛化能力提高。

作者:Max Weltevrede, Matthijs T.J. Spaan, Wendelin B"ohmer

论文ID:2306.05727

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-09-01

PDF 下载: 英文版 中文版pdf翻译中