贝叶斯探索网络
摘要:贝叶斯强化学习(RL)为不确定性下的顺序决策提供了一种原则性和优雅的方法。最显著的是,贝叶斯智能体不会面临勘探/开发困境,这是频率方法的主要问题。贝叶斯RL的一个关键挑战是学习贝叶斯最优策略的计算复杂性,在玩具领域中是可处理的。在本文中,我们提出了一种新颖的无模型方法来应对这个挑战。我们的理论分析表明,现有的无模型方法要么不能传播认知不确定性通过MDP,要么优化一组上下文策略而不是所有的历史记录条件策略。这两个近似都会产生可以任意低于贝叶斯最优的策略。为了解决这些问题,我们引入了贝叶斯探索网络(BEN),它使用归一化流来模拟贝尔曼算子中的几胡不确定性(通过密度估计)和认知不确定性(通过变分推理)。在完全优化的极限情况下,BEN学习真正的贝叶斯最优策略,但是像变分期望最大化一样,部分优化使我们的方法可处理。实证结果表明,在现有的无模型方法失败的任务中,BEN可以学习到真正的贝叶斯最优策略。
作者:Mattie Fellows, Brandon Kaplowitz, Christian Schroeder de Witt and Shimon Whiteson
论文ID:2308.13049
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-28