用形式化方法进行数据聚合的MCTS：降低延迟的蒙特卡洛树搜索-arXiv论文预印本中文版

用形式化方法进行数据聚合的MCTS：降低延迟的蒙特卡洛树搜索

摘要：在大型Markov决策过程（MDP）中，我们研究如何高效地结合形式方法、蒙特卡洛树搜索（MCTS）和深度学习，以产生高质量的递进视野策略。具体来说，我们使用模型检验技术来指导MCTS算法，以在MDP的代表性状态集上生成高质量决策的离线样本。这些样本可以用来训练一个模仿生成它们的策略的神经网络。这个神经网络可以作为低延迟MCTS在线搜索的指导，也可以在需要最小延迟时作为一个完整的策略使用。我们使用统计模型检验来检测是否需要额外的样本，并将这些额外的样本集中在学习到的神经网络策略与（计算代价高昂的）离线策略不一致的配置上。我们在模拟冰湖和吃豆人环境的MDPs上演示了我们方法的使用，这两个环境是评估强化学习算法的两个流行的基准测试。

作者：Debraj Chakraborty, Damien Busatto-Gaston, Jean-Franc{c}ois Raskin and Guillermo A. P''erez

论文ID：2308.07738

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-08-16

PDF 下载： 英文版中文版pdf翻译中