从对称中学习:具有对称行为和语言指令的元强化学习
摘要:元强化学习(meta-RL)是一种有望快速学习新任务的有效方法。然而,大多数元-RL算法在多任务场景中显示出较差的泛化能力,因为仅通过奖励提供不够的任务信息。以语言为条件的元-RL通过将语言指令与agent的行为匹配来改善泛化能力。虽然行为和语言指令都具有对称性,可以加速人类学习新知识。因此,将对称性和语言指令结合到元-RL中可以帮助提高算法的泛化能力和学习效率。我们提出了一种双MDP元-强化学习方法,可以通过对称的行为和语言指令有效地学习新任务。我们在多个具有挑战性的操作任务中评估了我们的方法,实验结果表明我们的方法可以极大地改善元-强化学习的泛化能力和学习效率。视频可在https://tumi6robot.wixsite.com/symmetry/上观看。
作者:Xiangtong Yao, Zhenshan Bing, Genghang Zhuang, Kejia Chen, Hongkuan Zhou, Kai Huang and Alois Knoll
论文ID:2209.10656
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-07-06