有限最优控制在时限可达性问题的CTMDPs和连续时间马尔可夫博弈中
摘要:连续时间马尔可夫决策过程中有限时间可达性的最佳调度策略的存在性及连续时间马尔可夫博弈中的共同最优策略的存在性的建立。此外,我们还证明了最优控制不仅存在,而且具有非常简单的结构:我们证明的最优调度器是确定性的和定时定位的。有限的时间可以被划分为有限个区间,在这些区间内最优策略是定位的。也就是说,我们证明了有限的最优控制存在性。最后,我们还展示了马尔可夫决策过程的这些良好特性扩展到更一般的连续时间马尔可夫博弈的类别,并且早期和后期的调度器都表现出这种行为。
作者:Markus Rabe and Sven Schewe
论文ID:1004.4005
分类:Formal Languages and Automata Theory
分类简称:cs.FL
提交时间:2010-06-07