移动环境:LLM时代互动智能体的评估平台和基准

摘要:在评估大规模语言模型(LLM)的各种能力时,多样化的评估基准起着至关重要的作用。虽然已经有很多努力致力于构建有价值的基准,但在多步交互环境中评估LLM的能力方面仍然很少研究。我们注意到LLM需要对环境观测进行文本表示以进行交互,因此我们选择通过构建基于信息用户界面(InfoUI)的新型基准来填补这个空白。InfoUI由丰富的文本内容组成,并且可以用一些文本格式来表示,因此非常适合评估LLM的交互能力。此外,InfoUI的复杂结构可以进一步提高LLM理解结构化文本而不是纯文本的挑战。交互平台通常用于评估一个代理程序,然而,在专门用于InfoUI的交互平台方面仍然缺乏令人满意的选择。因此,我们提出建立一个新型易于扩展、适应性强且接近实际的交互平台Mobile-Env,为合适的基准提供基础。基于Mobile-Env,建立了一个名为WikiHow的InfoUI任务集,用于建立结构化文本环境中LLM的多步交互能力基准。基于一系列LLM的代理程序将在任务集上进行测试,以深入了解LLM在InfoUI交互方面的潜力和挑战。我们衷心欢迎社区为Mobile-Env贡献新的环境和任务集,以提供更好的测试基准,促进相应领域的发展。

作者:Danyang Zhang, Lu Chen, Zihan Zhao, Ruisheng Cao, Kai Yu

论文ID:2305.08144

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-06-16

PDF 下载: 英文版 中文版pdf翻译中