抽象模型基于强化学习的分析-arXiv论文预印本中文版

抽象模型基于强化学习的分析

摘要：基于模型的强化学习中Markov决策过程（MDP）的许多方法为其提供了模型的准确性和学习效率的保证。同时，状态抽象技术允许在保持相对原始问题有界损失的同时减少MDP的规模。然而，令人惊讶的是，当将这两种技术组合在一起时，即仅使用抽象状态观察的MBRL，没有这样的保证可用。我们的理论分析表明，抽象可以引入在线收集样本之间的依赖关系（例如，在现实世界中）。这意味着，如果不考虑这种依赖关系，MBRL的结果无法直接推广到这种情况。我们的研究结果表明，我们可以使用关于鞅的集中不等式来克服这个问题。这个结果使得我们能够将现有的MBRL算法的保证扩展到抽象化的设置中。我们通过将典型的MBRL算法R-MAX与抽象化结合起来来说明这一点，从而为基于抽象观察的模型为基础的强化学习提供了首个性能保证。

作者：Rolf A. N. Starre, Marco Loog, Elena Congeduti, Frans A. Oliehoek

论文ID：2208.14407

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中