MAHALO:统一离线强化学习与观测下的模仿学习

摘要:从观察中的离线策略学习(PLfO)研究了一种用于顺序决策的新范式。离线PLfO旨在使用具有低质量数据集来学习策略:1)只有一部分轨迹被标记为奖励,2)标记的轨迹可能不包含动作,3)标记的轨迹可能质量不高,4)数据可能不具有完整覆盖。这种不完美在真实世界的学习场景中很常见,离线PLfO包括许多现有的离线学习设置,包括离线模仿学习(IL),离线观测学习(ILfO)和离线强化学习(RL)。在这项工作中,我们提出了一种通用的离线PLfO方法,称为$ extbf{M}$odality-agnostic $ extbf{A}$dversarial $ extbf{H}$ypothesis $ extbf{A}$daptation for $ extbf{L}$earning from $ extbf{O}$bservations(MAHALO)。基于离线RL中的悲观主义概念,MAHALO通过优化考虑由于数据集不完整覆盖而产生的不确定性的性能下界来优化策略。我们通过对抗性训练数据一致性评论家和奖励函数来实现这个想法,这迫使学习的策略对数据不足具有鲁棒性。我们证明MAHALO在理论和实验中在各种离线PLfO任务中始终优于或匹配专门算法。我们的代码可以在https://github.com/AnqiLi/mahalo中获得。

作者:Anqi Li, Byron Boots, Ching-An Cheng

论文ID:2303.17156

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-08

PDF 下载: 英文版 中文版pdf翻译中