AgentSims:一种用于大型语言模型评估的开源沙盒

摘要:评估基于任务的方法在大型语言模型中的应用解决了现有评估方法的瓶颈,不仅能够评估LLM的能力,还能提供更具客观性和全面性的评估结果。AgentSims为研究人员提供了一个易于使用的基础设施,通过在模拟环境中让LLM代理完成任务来进行评估。研究人员可以通过交互式图形界面添加代理和建筑物来构建他们的评估任务,也可以通过编写几行代码来部署和测试新的支持机制,如记忆、规划和工具使用系统。

作者:Jiaju Lin, Haoran Zhao, Aochi Zhang, Yiting Wu, Huqiuyue Ping, Qin Chen

论文ID:2308.04026

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-08-09

PDF 下载: 英文版 中文版pdf翻译中