大型语言模型能够实施策略迭代-arXiv论文预印本中文版

大型语言模型能够实施策略迭代

摘要：在上下文中使用基础模型执行强化学习（RL）的算法：In-Context Policy Iteration

作者：Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh

论文ID：2210.03821

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-15

PDF 下载： 英文版中文版pdf翻译中