从对称中学习：具有对称行为和语言指令的元强化学习-arXiv论文预印本中文版

从对称中学习：具有对称行为和语言指令的元强化学习

摘要：元强化学习（meta-RL）是一种有望快速学习新任务的有效方法。然而，大多数元-RL算法在多任务场景中显示出较差的泛化能力，因为仅通过奖励提供不够的任务信息。以语言为条件的元-RL通过将语言指令与agent的行为匹配来改善泛化能力。虽然行为和语言指令都具有对称性，可以加速人类学习新知识。因此，将对称性和语言指令结合到元-RL中可以帮助提高算法的泛化能力和学习效率。我们提出了一种双MDP元-强化学习方法，可以通过对称的行为和语言指令有效地学习新任务。我们在多个具有挑战性的操作任务中评估了我们的方法，实验结果表明我们的方法可以极大地改善元-强化学习的泛化能力和学习效率。视频可在https://tumi6robot.wixsite.com/symmetry/上观看。

作者：Xiangtong Yao, Zhenshan Bing, Genghang Zhuang, Kejia Chen, Hongkuan Zhou, Kai Huang and Alois Knoll

论文ID：2209.10656

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-07-06

PDF 下载： 英文版中文版pdf翻译中