连续时间马尔可夫决策过程上的最大成本限制可达性概率

摘要:多维度上的最大成本限制可达性概率问题的连续时间马尔可夫决策过程(CTMDPs)被考虑。本文的主要贡献如下。首先,我们推导出了一个积分描述,该描述说明最大成本限制可达性概率函数是积分方程系统的最小不动点。其次,我们证明最大成本限制可达性概率可以通过一个可测的确定性成本位置调度策略来实现。第三,我们提供了最大成本限制可达性概率的数值近似算法。我们在早期和晚期调度器的设置下提出了这些结果。

作者:Hongfei Fu

论文ID:1310.2514

分类:Systems and Control

分类简称:cs.SY

提交时间:2014-01-20

PDF 下载: 英文版 中文版pdf翻译中