用形式化方法进行数据聚合的MCTS:降低延迟的蒙特卡洛树搜索

摘要:在大型Markov决策过程(MDP)中,我们研究如何高效地结合形式方法、蒙特卡洛树搜索(MCTS)和深度学习,以产生高质量的递进视野策略。具体来说,我们使用模型检验技术来指导MCTS算法,以在MDP的代表性状态集上生成高质量决策的离线样本。这些样本可以用来训练一个模仿生成它们的策略的神经网络。这个神经网络可以作为低延迟MCTS在线搜索的指导,也可以在需要最小延迟时作为一个完整的策略使用。我们使用统计模型检验来检测是否需要额外的样本,并将这些额外的样本集中在学习到的神经网络策略与(计算代价高昂的)离线策略不一致的配置上。我们在模拟冰湖和吃豆人环境的MDPs上演示了我们方法的使用,这两个环境是评估强化学习算法的两个流行的基准测试。

作者:Debraj Chakraborty, Damien Busatto-Gaston, Jean-Franc{c}ois Raskin and Guillermo A. P''erez

论文ID:2308.07738

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-08-16

PDF 下载: 英文版 中文版pdf翻译中