经典规划中的探索和开发的自适应平衡

摘要:用于计算机博弈树搜索和自动规划中的“平衡探索和利用”问题一直以来都是一个重要的问题。然而,在多臂赌博机(MAB)文献中广泛分析了该问题,但在规划社区中尝试应用这些结果方面的成功有限。我们表明,对MAB文献有更详细的理论了解有助于改进基于蒙特卡洛树搜索(MCTS) / 基于试验的启发式树搜索(THTS)的现有规划算法。特别是,THTS以一种临时的方式使用UCB1 MAB算法,因为UCB1的理论要求固定有界的支持回报分布在经典规划的启发式搜索中不成立。核心问题在于UCB1对不同尺度的回报缺乏自适应。我们提出了一种新的MCTS/THTS算法,即GreedyUCT-Normal,使用UCB1-Normal赌博机处理具有不同尺度的分布,通过考虑奖励方差,结果是改进了算法性能(找到更多的计划并减少了节点扩展),优于Greedy Best First Search和现有的基于MCTS/THTS的算法(GreedyUCT,GreedyUCT*)。

作者:Stephen Wissow, Masataro Asai

论文ID:2305.09840

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-07-06

PDF 下载: 英文版 中文版pdf翻译中