全球和情境中探索的全局与情节奖励研究
摘要:通过对易于解释的任务和具有挑战性的像素图像环境进行受控实验,我们对这两种类型的奖励的行为进行了研究,并发现这两种奖励在不同的环境中表现出不同的效果。具体而言,当不同episode之间缺乏共享结构时,使用epoch奖励是最有效的,而当有更多共享结构时,使用全局奖励更有效。我们通过考虑值函数在不同上下文中的方差来明确共享结构的概念,并对我们的实证结果提供了统一的解释。此外,我们发现将这两种奖励结合起来可以在不同程度的共享结构下实现更稳健的性能,并研究了基于函数逼近来定义和组合全局和epoch奖励的不同算法选择。这个算法在先前工作中使用的MiniHack套件的16个任务中创造了最新的性能水平,并且在Habitat和Montezuma's Revenge上表现稳健。
作者:Mikael Henaff, Minqi Jiang, Roberta Raileanu
论文ID:2306.03236
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-06-07