贝叶斯逆转移学习在离线场景中

摘要:离线强化学习中用于医疗和教育等领域顺序决策的常见方法是基于批次数据估计转换动力学$T$,其中奖励是已知的。对于所有任务来说,一个重要的挑战是如何学习一个可靠的$T$的估计,以产生近似最优的策略,这些策略在价值函数方面能够避免采取与最佳行动相差较大的行动,并且能够传递其不确定性信息。我们提出了一种基于约束的方法,利用专家的数据来可靠地学习转换动力学$T$的后验分布,避免使用梯度。我们的结果表明,通过使用我们的约束条件,我们学到了一个性能很高的策略,同时显著减少了不同数据集上策略的方差。我们还解释了如何将不确定性估计与这些约束相结合,来推断产生高回报的行动的部分排序,并帮助我们推断更安全和更具信息量的规划策略。 标题:基于约束的离线强化学习中的可靠学习方法

作者:Leo Benac, Sonali Parbhoo, Finale Doshi-Velez

论文ID:2308.05075

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-10

PDF 下载: 英文版 中文版pdf翻译中