标记马尔可夫决策过程中的追踪细化
摘要:标记马尔可夫决策过程(MDPs)的追踪细化问题是指是否存在第二个MDP的策略,使得引发的标记马尔可夫链是追踪等价的关系,对于第一个MDP的所有策略。我们表明,如果第二个MDP是马尔可夫链,则可以在多项式时间内判断该问题的可判定性。该算法基于对状态分布的特定双模拟概念的新结果。然而,我们展示了即使第一个MDP是马尔可夫链,一般的追踪细化问题是不可判定的。这些问题的可判定性是在2008年被提出开放的。我们进一步研究在策略被限定为无记忆的情况下,追踪细化问题的可判定性和复杂性。
作者:Nathana"el Fijalkow, Stefan Kiefer, Mahsa Shirmohammadi
论文ID:1510.09102
分类:Logic in Computer Science
分类简称:cs.LO
提交时间:2023-06-22