超越想象:通过世界模型最大化情节可达性
摘要:在强化学习中,高效探索是一个具有挑战性的课题,特别是对于奖励稀疏的任务。为了处理奖励稀疏性,人们通常会应用内在奖励来激励智能体有效地探索状态空间。在本文中,我们引入一种新的内在奖励设计,称为GoBI(超越想象),它将传统的终身新奇性动机与设计为最大化逐步可达扩展的以及具有情节性的内在奖励相结合。具体而言,我们应用学习到的世界模型来生成带有随机动作的未来状态预测。那些在情节性记忆中没有的更多独特预测的状态被赋予高内在奖励。我们的方法在12个最具挑战性的Minigrid导航任务中大大优于先前最先进的方法,并提高了DeepMind Control Suite中运动任务的样本效率。
作者:Yao Fu, Run Peng, Honglak Lee
论文ID:2308.13661
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-29