嵌入式演示数据集中的行为克隆
摘要:使用行为克隆技术通过一个演示数据集学习一种行为策略。为了克服各种学习和策略适应问题,我们提出使用潜在空间索引演示数据集,在瞬间获取类似的相关经验,并从这些情境中复制行为。代理可以执行所选类似情境中的动作,直到代理的当前情境表示与所选经验在潜在空间中发散。因此,我们将控制问题制定为在一组专家演示数据集上的搜索问题。我们在BASALT MineRL-dataset上使用视频预训练模型的潜在表示来测试我们的方法。我们将我们的模型与最先进的Minecraft代理进行比较。我们的方法能够有效地恢复有意义的演示,并在各种场景中展示出一个代理在Minecraft环境中类似人类的行为。实验结果表明,我们基于搜索的方法的性能与经过训练的模型相当,同时可以通过更改演示例子来实现零波动任务适配。
作者:Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik
论文ID:2306.09082
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-06-16