部分观测马尔可夫决策过程的实验设计

摘要:如何在部分观测的马尔可夫决策过程中进行实验以提供最有关某一参数的信息,是本文讨论的问题。本文介绍了马尔可夫决策过程中的方法,特别是动态规划,并将其应用于一个最大化相关Fisher信息的算法中。然后,该算法被应用于两个部分观测的马尔可夫决策过程的示例中。开发的方法也可以应用于随机动态系统,通过适当的离散化方法,我们展示了Morris-Lecar神经元模型中的控制策略,并呈现了模拟结果。我们讨论了如何通过使用先验知识处理这些方法中的参数依赖性,并开发了在线更新控制策略的工具。这在描述PCR模型中DNA模板生长动力学的另一个随机动态系统中得到了证明。

作者:Leifur Thorbergsson and Giles Hooker

论文ID:1209.4019

分类:Other Statistics

分类简称:stat.OT

提交时间:2018-01-31

PDF 下载: 英文版 中文版pdf翻译中