全球和情境中探索的全局与情节奖励研究-arXiv论文预印本中文版

全球和情境中探索的全局与情节奖励研究

摘要：通过对易于解释的任务和具有挑战性的像素图像环境进行受控实验，我们对这两种类型的奖励的行为进行了研究，并发现这两种奖励在不同的环境中表现出不同的效果。具体而言，当不同episode之间缺乏共享结构时，使用epoch奖励是最有效的，而当有更多共享结构时，使用全局奖励更有效。我们通过考虑值函数在不同上下文中的方差来明确共享结构的概念，并对我们的实证结果提供了统一的解释。此外，我们发现将这两种奖励结合起来可以在不同程度的共享结构下实现更稳健的性能，并研究了基于函数逼近来定义和组合全局和epoch奖励的不同算法选择。这个算法在先前工作中使用的MiniHack套件的16个任务中创造了最新的性能水平，并且在Habitat和Montezuma's Revenge上表现稳健。

作者：Mikael Henaff, Minqi Jiang, Roberta Raileanu

论文ID：2306.03236

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-07

PDF 下载： 英文版中文版pdf翻译中