通过双层强化学习实现代理策略与外部性的对齐: 基于奖励设计

摘要:通过双层强化学习与委托代理框架实现主体驱动的策略对齐

作者:Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Furong Huang, and Mengdi Wang

论文ID:2308.02585

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-08

PDF 下载: 英文版 中文版pdf翻译中