关于多维马尔可夫奖励的表达能力

摘要:马尔科夫奖励在不确定性下的序列决策中的表达能力研究 存在性分析马尔可夫决策过程(MDPs)中的奖励函数表达期望行为的能力 研究了是否存在一个标量或多维马尔可夫奖励函数,使得集合中的策略比其他策略更可取 得出了存在这样的奖励函数的必要和充分条件。同时也证明了对于每一个非退化的确定性策略集合,存在一个多维马尔可夫奖励函数描述它

作者:Shuwa Miura

论文ID:2307.12184

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-07-25

PDF 下载: 英文版 中文版pdf翻译中