未知随机分布下的情节式贝叶斯最优控制-arXiv论文预印本中文版

未知随机分布下的情节式贝叶斯最优控制

摘要：具有未知随机分布的随机最优控制问题已经被研究了很长时间，包括鲁棒控制、分布鲁棒控制和自适应控制。我们提出了一种新的情节贝叶斯方法，将贝叶斯学习与最优控制相结合。在每个情节中，该方法利用贝叶斯后验学习随机分布，并随后求解对应的贝叶斯平均估计问题。所得到的策略在该情节中被执行，同时收集额外的数据/观测结果来更新下一个情节的贝叶斯后验。我们证明了如果随机分布的参数化模型被正确指定，情节价值函数和策略几乎必定收敛到其真实问题的最优对应物。我们进一步证明了情节价值函数的渐近收敛速度为$O(N^{-1/2})$。我们基于随机双动态规划方法开发了一种高效的计算方法，用于一类具有凸价值函数的问题。我们在经典的库存控制问题上的数值结果验证了理论收敛结果，并证明了所提出的计算方法的有效性。

作者：Alexander Shapiro, Enlu Zhou, Yifan Lin, Yuhao Wang

论文ID：2308.08478

分类：Optimization and Control

分类简称：math.OC

提交时间：2023-08-17

PDF 下载： 英文版中文版pdf翻译中