关于多维马尔可夫奖励的表达能力
摘要:马尔科夫奖励在不确定性下的序列决策中的表达能力研究 存在性分析马尔可夫决策过程(MDPs)中的奖励函数表达期望行为的能力 研究了是否存在一个标量或多维马尔可夫奖励函数,使得集合中的策略比其他策略更可取 得出了存在这样的奖励函数的必要和充分条件。同时也证明了对于每一个非退化的确定性策略集合,存在一个多维马尔可夫奖励函数描述它
作者:Shuwa Miura
论文ID:2307.12184
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-25