密度函数与值函数之间的二重性及其在约束最优控制和马尔可夫决策过程中的应用

摘要:空间状态密度函数和Markov决策过程表征了动态系统的状态空间中的状态密度。其演化遵循李乌维尔方程。我们表明,密度函数是最优控制问题中值函数的对偶。通过利用对偶性,可以在密度函数上提出在原始值函数优化中难以强制执行的约束,如机器人导航中的安全约束,交通流控制中的交通容量约束,并且可以使用原始-对偶算法解决带约束的最优控制问题,该算法在原始和对偶优化之间交替进行。原始优化使用带有由密度约束生成的扰动项的标准最优控制算法,而对偶问题求解李乌维尔方程以获取在固定控制策略下的密度函数,并更新扰动项。此外,所提出的方法可以扩展到带有外部扰动的情况,并保证在最坏情况下的鲁棒安全性。我们将所提出的方法应用于三个例子,机器人导航问题、仿真中的交通控制问题,以及带有实验的Segway控制问题。

作者:Yuxiao Chen and Aaron D. Ames

论文ID:1902.09583

分类:Systems and Control

分类简称:cs.SY

提交时间:2019-11-11

PDF 下载: 英文版 中文版pdf翻译中