移动环境：LLM时代互动智能体的评估平台和基准-arXiv论文预印本中文版

移动环境：LLM时代互动智能体的评估平台和基准

摘要：在评估大规模语言模型（LLM）的各种能力时，多样化的评估基准起着至关重要的作用。虽然已经有很多努力致力于构建有价值的基准，但在多步交互环境中评估LLM的能力方面仍然很少研究。我们注意到LLM需要对环境观测进行文本表示以进行交互，因此我们选择通过构建基于信息用户界面（InfoUI）的新型基准来填补这个空白。InfoUI由丰富的文本内容组成，并且可以用一些文本格式来表示，因此非常适合评估LLM的交互能力。此外，InfoUI的复杂结构可以进一步提高LLM理解结构化文本而不是纯文本的挑战。交互平台通常用于评估一个代理程序，然而，在专门用于InfoUI的交互平台方面仍然缺乏令人满意的选择。因此，我们提出建立一个新型易于扩展、适应性强且接近实际的交互平台Mobile-Env，为合适的基准提供基础。基于Mobile-Env，建立了一个名为WikiHow的InfoUI任务集，用于建立结构化文本环境中LLM的多步交互能力基准。基于一系列LLM的代理程序将在任务集上进行测试，以深入了解LLM在InfoUI交互方面的潜力和挑战。我们衷心欢迎社区为Mobile-Env贡献新的环境和任务集，以提供更好的测试基准，促进相应领域的发展。

作者：Danyang Zhang, Lu Chen, Zihan Zhao, Ruisheng Cao, Kai Yu

论文ID：2305.08144

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-16

PDF 下载： 英文版中文版pdf翻译中