基于线性规划的约束部分可观察马尔可夫决策过程的解法方法

摘要:约束的部分可观察马尔可夫决策过程(CPOMDPs)已被用于建模各种实际现象。然而,它们在求解最优解方面非常困难,只有少数逼近方法可以获得高质量的解。本研究使用基于网格的逼近方法结合线性规划(LP)模型为CPOMDP生成近似策略。通过对六个CPOMDP问题实例的详细数值研究,考虑了有限和无限时间跨度的情况。通过与精确解方法的比较分析,建立了解决无约束POMDP问题的逼近算法的质量。然后,评估了基于LP的CPOMDP解决方法在不同预算水平下的性能。最后,通过应用确定性策略约束,展示了LP-based方法的灵活性,并提供了关于其对奖励和CPU运行时间的影响的详细研究。对于大多数有限时间跨度的问题,确定性策略约束对预期奖励几乎没有影响,但它们显著增加了CPU运行时间。对于无限时间跨度的问题,观察到相反的情况:确定性策略倾向于产生比其随机对应策略更低的预期总奖励,但在这种情况下,确定性约束对CPU运行时间的影响微不足道。总体而言,这些结果表明LP模型可以有效地为有限和无限时间跨度的问题生成近似策略,并提供将各种额外约束引入到底层模型的灵活性。

作者:Robert K. Helmeczi and Can Kavaklioglu and Mucahit Cevik

论文ID:2206.14081

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-27

PDF 下载: 英文版 中文版pdf翻译中