使代理人与语言模型之间的智能交互成为可能：一种强化学习方法-arXiv论文预印本中文版

使代理人与语言模型之间的智能交互成为可能：一种强化学习方法

摘要：使用大型语言模型（LLMs）来辅助具有实体的智能体解决复杂的序列决策任务已经在最近的研究中得到证明。然而，与LLMs的交互通常是耗时的，在许多实际场景中，需要大量的存储空间，只能在远程云服务器节点上部署。此外，使用商业LLMs可能会很昂贵，因为它们可能会根据使用次数收费。在本文中，我们探讨了如何实现智能而经济高效的智能体与LLM的交互。我们提出了一种基于强化学习的方法When2Ask，该方法学习了何时需要查询LLMs以完成目标任务的高级指令。在涉及规划子目标的MiniGrid和Habitat环境上的实验证明，When2Ask学习到仅需与LLMs进行少量必要交互即可解决目标任务，并且与基线方法相比，在测试环境中显著降低了交互成本。实验结果还表明，通过学习与LLM进行交互的中介模型，智能体在环境的部分可观察性下的性能更加稳健。我们的代码可在https://github.com/ZJLAB-AMMI/LLM4RL上找到。

作者：Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu

论文ID：2306.03604

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-09-01

PDF 下载： 英文版中文版pdf翻译中