搜索与探索:POMDP中的共生策略合成

摘要:部分可观察马尔可夫决策过程(POMDPs)是一个在不确定性下顺序决策制定中重要的模型。本文将两种最先进的控制器综合方法应用于POMDPs。找到一个只基于已经观察到的信息进行决策的POMDP控制器来实现总期望奖励目标是一个核心问题。由于寻找最优控制器是不可判定的,我们集中于综合好的有限状态控制器(FSCs)。通过紧密结合基于信念的方法和归纳方法两种现代的POMDP控制器综合方法来实现这一目标。前者从所谓的信念MDP的有限片段中获取一个FSC,信念MDP可以跟踪等效观测到的POMDP状态的概率。而后者是通过一组具有固定内存大小的FSC,例如控制器进行归纳搜索技术。本文的关键结果是一个协同任意时间算法,紧密地集成了这两种方法,使得每种方法都能从另一种方法构建的控制器中获益。实验结果表明,在显著减少合成时间和内存占用的同时,控制器的价值得到了显著提高。

作者:Roman Andriushchenko, Alexander Bork, Milan v{C}ev{s}ka, Sebastian Junges, Joost-Pieter Katoen, Filip Mac''ak

论文ID:2305.14149

分类:Logic in Computer Science

分类简称:cs.LO

提交时间:2023-05-30

PDF 下载: 英文版 中文版pdf翻译中