基于线性规划的约束部分可观察马尔可夫决策过程的解法方法-arXiv论文预印本中文版

基于线性规划的约束部分可观察马尔可夫决策过程的解法方法

摘要：约束的部分可观察马尔可夫决策过程（CPOMDPs）已被用于建模各种实际现象。然而，它们在求解最优解方面非常困难，只有少数逼近方法可以获得高质量的解。本研究使用基于网格的逼近方法结合线性规划（LP）模型为CPOMDP生成近似策略。通过对六个CPOMDP问题实例的详细数值研究，考虑了有限和无限时间跨度的情况。通过与精确解方法的比较分析，建立了解决无约束POMDP问题的逼近算法的质量。然后，评估了基于LP的CPOMDP解决方法在不同预算水平下的性能。最后，通过应用确定性策略约束，展示了LP-based方法的灵活性，并提供了关于其对奖励和CPU运行时间的影响的详细研究。对于大多数有限时间跨度的问题，确定性策略约束对预期奖励几乎没有影响，但它们显著增加了CPU运行时间。对于无限时间跨度的问题，观察到相反的情况：确定性策略倾向于产生比其随机对应策略更低的预期总奖励，但在这种情况下，确定性约束对CPU运行时间的影响微不足道。总体而言，这些结果表明LP模型可以有效地为有限和无限时间跨度的问题生成近似策略，并提供将各种额外约束引入到底层模型的灵活性。

作者：Robert K. Helmeczi and Can Kavaklioglu and Mucahit Cevik

论文ID：2206.14081

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-27

PDF 下载： 英文版中文版pdf翻译中