关于多维马尔可夫奖励的表达能力-arXiv论文预印本中文版

关于多维马尔可夫奖励的表达能力

摘要：马尔科夫奖励在不确定性下的序列决策中的表达能力研究存在性分析马尔可夫决策过程（MDPs）中的奖励函数表达期望行为的能力研究了是否存在一个标量或多维马尔可夫奖励函数，使得集合中的策略比其他策略更可取得出了存在这样的奖励函数的必要和充分条件。同时也证明了对于每一个非退化的确定性策略集合，存在一个多维马尔可夫奖励函数描述它

作者：Shuwa Miura

论文ID：2307.12184

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-07-25

PDF 下载： 英文版中文版pdf翻译中