通过双层强化学习实现代理策略与外部性的对齐: 基于奖励设计-arXiv论文预印本中文版

通过双层强化学习实现代理策略与外部性的对齐: 基于奖励设计

摘要：通过双层强化学习与委托代理框架实现主体驱动的策略对齐

作者：Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Furong Huang, and Mengdi Wang

论文ID：2308.02585

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-08

PDF 下载： 英文版中文版pdf翻译中