强化学习中使用极值理论的极端风险缓解

摘要:风险敏感的强化学习近年来引起了广泛关注,这是由于在实际场景中部署强化学习智能体的兴趣日益增长。风险意识的一个关键方面是对可能导致灾难性后果的高度稀有风险事件(奖励)进行建模。这些不经常发生的事件对于旨在准确捕捉此类风险事件的数据驱动方法提出了巨大挑战。虽然已经存在风险意识的强化学习技术,但其风险厌恶程度在很大程度上依赖于建模这些稀有事件时状态-行动值函数估计的准确性。本研究旨在通过改进状态-行动值函数分布预测的极值来增强强化学习智能体在面对非常稀有和高风险事件时的弹性。为实现这一目标,我们将极值状态-行动值函数分布以参数化分布的形式进行建模,借鉴了极值理论(EVT)的原理。这种方法通过利用EVT的参数化来有效解决不经常发生的问题。重要的是,我们从理论上证明了与其他风险厌恶算法相比,采用这些参数化分布的优势。我们的评估结果显示,所提出的方法在各种不同风险情景的基准任务中优于其他风险厌恶的强化学习算法。

作者:Karthik Somayaji NS, Yu Wang, Malachi Schram, Jan Drgona, Mahantesh Halappanavar, Frank Liu, Peng Li

论文ID:2308.13011

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中