搜索与探索：POMDP中的共生策略合成-arXiv论文预印本中文版

搜索与探索：POMDP中的共生策略合成

摘要：部分可观察马尔可夫决策过程（POMDPs）是一个在不确定性下顺序决策制定中重要的模型。本文将两种最先进的控制器综合方法应用于POMDPs。找到一个只基于已经观察到的信息进行决策的POMDP控制器来实现总期望奖励目标是一个核心问题。由于寻找最优控制器是不可判定的，我们集中于综合好的有限状态控制器（FSCs）。通过紧密结合基于信念的方法和归纳方法两种现代的POMDP控制器综合方法来实现这一目标。前者从所谓的信念MDP的有限片段中获取一个FSC，信念MDP可以跟踪等效观测到的POMDP状态的概率。而后者是通过一组具有固定内存大小的FSC，例如控制器进行归纳搜索技术。本文的关键结果是一个协同任意时间算法，紧密地集成了这两种方法，使得每种方法都能从另一种方法构建的控制器中获益。实验结果表明，在显著减少合成时间和内存占用的同时，控制器的价值得到了显著提高。

作者：Roman Andriushchenko, Alexander Bork, Milan v{C}ev{s}ka, Sebastian Junges, Joost-Pieter Katoen, Filip Mac''ak

论文ID：2305.14149

分类：Logic in Computer Science

分类简称：cs.LO

提交时间：2023-05-30

PDF 下载： 英文版中文版pdf翻译中