控制理论与POMDP相遇:混合系统方法
摘要:部分可观察的马尔可夫决策过程 (POMDPs) 提供了一种人工智能中各种不确定性情境下的顺序决策建模框架。由于在 POMDP 中状态不是直接可观测的,决策必须基于贝叶斯滤波器的输出(连续信念)来进行。因此,精确解决POMDP通常计算上是难解的,研究人员常常采用离散化连续信念空间的近似方法。然而,这些近似解容易受到离散化误差的影响,从而使得POMDP在需要安全性、最优性或性能保证的应用中变得无效。为了克服POMDP的复杂性挑战,我们应用了控制理论中的概念。目标是确定POMDP的可达信念空间,即在给定初始状态下和一组动作与观察的情况下,所有可能的演化的集合。我们首先将分析POMDP问题转化为分析离散时间切换系统的行为问题。为了估计可达信念空间,我们找到以 Lyapunov 函数的子级集进行近似。此外,为了验证给定POMDP的安全性和最优性要求,我们提出了一个屏障证明定理,其中我们展示了如果存在一个满足一组不等式和POMDP的信念更新方程的屏障证明,那么安全性和最优性属性将被保证。在这两种情况下,我们展示了如何将计算分解为可以并行求解的小问题。我们所制定的条件可以作为一组平方和程序在计算上实现。我们通过解决广告调度和机器教学中的两个问题来说明我们方法的适用性。
作者:Mohamadreza Ahmadi, Nils Jansen, Bo Wu, and Ufuk Topcu
论文ID:1905.08095
分类:Systems and Control
分类简称:cs.SY
提交时间:2019-05-21