分类分布强化学习的分析
摘要:基于值的分布式强化学习方法模拟了回报的整个分布,而不仅仅是期望值,并最近被证明具有最先进的实证性表现。基于分类分布强化学习(CDRL) [Bellemare等,2017]的最近提出的C51算法证明了这一点。然而,CDRL算法的理论性质尚未得到充分理解。在本文中,我们介绍了一个框架来分析CDRL算法,建立了在分布式强化学习中的投影分布Bellman算子的重要性,揭示了CDRL与Cram'er距离之间的基本联系,并对基于样本的分类分布式强化学习算法的收敛性进行了证明。
作者:Mark Rowland, Marc G. Bellemare, Will Dabney, R''emi Munos, Yee Whye Teh
论文ID:1802.08163
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-02-23