抽象模型基于强化学习的分析
摘要:基于模型的强化学习中Markov决策过程(MDP)的许多方法为其提供了模型的准确性和学习效率的保证。同时,状态抽象技术允许在保持相对原始问题有界损失的同时减少MDP的规模。然而,令人惊讶的是,当将这两种技术组合在一起时,即仅使用抽象状态观察的MBRL,没有这样的保证可用。我们的理论分析表明,抽象可以引入在线收集样本之间的依赖关系(例如,在现实世界中)。这意味着,如果不考虑这种依赖关系,MBRL的结果无法直接推广到这种情况。我们的研究结果表明,我们可以使用关于鞅的集中不等式来克服这个问题。这个结果使得我们能够将现有的MBRL算法的保证扩展到抽象化的设置中。我们通过将典型的MBRL算法R-MAX与抽象化结合起来来说明这一点,从而为基于抽象观察的模型为基础的强化学习提供了首个性能保证。
作者:Rolf A. N. Starre, Marco Loog, Elena Congeduti, Frans A. Oliehoek
论文ID:2208.14407
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-30