决定什么是对MDPs(马尔可夫决策过程)有益的

摘要:确定性自动机的好处对于MDP模型检查和强化学习而言,与对于反应合成而言,即对于决策自动机是一种更紧凑的替代品,它显示了非确定性,但只有这么多,以便可以在局部解决,从而可以分析语法产品。 GFM最近作为强化学习的属性被引入,其中允许使用更简单的布奇接受条件是关键。然而,虽然有经典和新颖的技术可以获得GFM状态的自动机,但还没有一种决策过程来检查一个自动机是否是GFM。 我们证明了GFM[ess的决定性,并提供了一个EXPTIME决策程序以及一个PSPACE困难性证明。

作者:Sven Schewe, Qiyi Tang and Tansholpan Zhanabekova

论文ID:2202.07629

分类:Formal Languages and Automata Theory

分类简称:cs.FL

提交时间:2023-07-04

PDF 下载: 英文版 中文版pdf翻译中