连续时间马尔可夫决策过程上的最大成本限制可达性概率
摘要:多维度上的最大成本限制可达性概率问题的连续时间马尔可夫决策过程(CTMDPs)被考虑。本文的主要贡献如下。首先,我们推导出了一个积分描述,该描述说明最大成本限制可达性概率函数是积分方程系统的最小不动点。其次,我们证明最大成本限制可达性概率可以通过一个可测的确定性成本位置调度策略来实现。第三,我们提供了最大成本限制可达性概率的数值近似算法。我们在早期和晚期调度器的设置下提出了这些结果。
作者:Hongfei Fu
论文ID:1310.2514
分类:Systems and Control
分类简称:cs.SY
提交时间:2014-01-20