嵌入式演示数据集中的行为克隆-arXiv论文预印本中文版

嵌入式演示数据集中的行为克隆

摘要：使用行为克隆技术通过一个演示数据集学习一种行为策略。为了克服各种学习和策略适应问题，我们提出使用潜在空间索引演示数据集，在瞬间获取类似的相关经验，并从这些情境中复制行为。代理可以执行所选类似情境中的动作，直到代理的当前情境表示与所选经验在潜在空间中发散。因此，我们将控制问题制定为在一组专家演示数据集上的搜索问题。我们在BASALT MineRL-dataset上使用视频预训练模型的潜在表示来测试我们的方法。我们将我们的模型与最先进的Minecraft代理进行比较。我们的方法能够有效地恢复有意义的演示，并在各种场景中展示出一个代理在Minecraft环境中类似人类的行为。实验结果表明，我们基于搜索的方法的性能与经过训练的模型相当，同时可以通过更改演示例子来实现零波动任务适配。

作者：Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik

论文ID：2306.09082

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-16

PDF 下载： 英文版中文版pdf翻译中