未知随机分布下的情节式贝叶斯最优控制
摘要:具有未知随机分布的随机最优控制问题已经被研究了很长时间,包括鲁棒控制、分布鲁棒控制和自适应控制。我们提出了一种新的情节贝叶斯方法,将贝叶斯学习与最优控制相结合。在每个情节中,该方法利用贝叶斯后验学习随机分布,并随后求解对应的贝叶斯平均估计问题。所得到的策略在该情节中被执行,同时收集额外的数据/观测结果来更新下一个情节的贝叶斯后验。我们证明了如果随机分布的参数化模型被正确指定,情节价值函数和策略几乎必定收敛到其真实问题的最优对应物。我们进一步证明了情节价值函数的渐近收敛速度为$O(N^{-1/2})$。我们基于随机双动态规划方法开发了一种高效的计算方法,用于一类具有凸价值函数的问题。我们在经典的库存控制问题上的数值结果验证了理论收敛结果,并证明了所提出的计算方法的有效性。
作者:Alexander Shapiro, Enlu Zhou, Yifan Lin, Yuhao Wang
论文ID:2308.08478
分类:Optimization and Control
分类简称:math.OC
提交时间:2023-08-17