强化学习中多样重放的泛化作用-arXiv论文预印本中文版

强化学习中多样重放的泛化作用

摘要：在强化学习(RL)中，许多算法的关键组成部分是探索策略和重放缓冲区。这些策略调节对环境数据的收集和训练，并在RL文献中进行了广泛的研究。在本文中，我们研究了这些组件在多任务RL泛化方面的影响。我们研究了这样一个假设：从训练环境收集和训练更多多样化的数据将改善对新任务的零-shot泛化能力。我们在数学上提出了动机，并通过实验证明，在回放缓冲区中增加过渡的多样性可以改善对在训练过程中"可达"的任务的泛化能力。此外，我们还通过实验证明，这种策略对于类似但"不可达"的任务的泛化也有改善，可能是由于学习到的潜在表示的泛化能力提高。

作者：Max Weltevrede, Matthijs T.J. Spaan, Wendelin B"ohmer

论文ID：2306.05727

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中