大型语言模型能够实施策略迭代

摘要:在上下文中使用基础模型执行强化学习(RL)的算法:In-Context Policy Iteration

作者:Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh

论文ID:2210.03821

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-15

PDF 下载: 英文版 中文版pdf翻译中