分类分布强化学习的分析-arXiv论文预印本中文版

分类分布强化学习的分析

摘要：基于值的分布式强化学习方法模拟了回报的整个分布，而不仅仅是期望值，并最近被证明具有最先进的实证性表现。基于分类分布强化学习（CDRL） [Bellemare等，2017]的最近提出的C51算法证明了这一点。然而，CDRL算法的理论性质尚未得到充分理解。在本文中，我们介绍了一个框架来分析CDRL算法，建立了在分布式强化学习中的投影分布Bellman算子的重要性，揭示了CDRL与Cram'er距离之间的基本联系，并对基于样本的分类分布式强化学习算法的收敛性进行了证明。

作者：Mark Rowland, Marc G. Bellemare, Will Dabney, R''emi Munos, Yee Whye Teh

论文ID：1802.08163

分类：Machine Learning

分类简称：stat.ML

提交时间：2018-02-23

PDF 下载： 英文版中文版pdf翻译中