贝叶斯探索网络-arXiv论文预印本中文版

贝叶斯探索网络

摘要：贝叶斯强化学习（RL）为不确定性下的顺序决策提供了一种原则性和优雅的方法。最显著的是，贝叶斯智能体不会面临勘探/开发困境，这是频率方法的主要问题。贝叶斯RL的一个关键挑战是学习贝叶斯最优策略的计算复杂性，在玩具领域中是可处理的。在本文中，我们提出了一种新颖的无模型方法来应对这个挑战。我们的理论分析表明，现有的无模型方法要么不能传播认知不确定性通过MDP，要么优化一组上下文策略而不是所有的历史记录条件策略。这两个近似都会产生可以任意低于贝叶斯最优的策略。为了解决这些问题，我们引入了贝叶斯探索网络（BEN），它使用归一化流来模拟贝尔曼算子中的几胡不确定性（通过密度估计）和认知不确定性（通过变分推理）。在完全优化的极限情况下，BEN学习真正的贝叶斯最优策略，但是像变分期望最大化一样，部分优化使我们的方法可处理。实证结果表明，在现有的无模型方法失败的任务中，BEN可以学习到真正的贝叶斯最优策略。

作者：Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and Shimon Whiteson

论文ID：2308.13049

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-28

PDF 下载： 英文版中文版pdf翻译中