评估ChatGPT-4在不同学科中提供科学参考文献的效果

摘要:开放AI的ChatGPT-4在各种研究学科中寻找科学参考文献的熟练程度进行了全面的探索。我们的深入分析涵盖了计算机科学(CS)、机械工程(ME)、电气工程(EE)、生物医学工程(BME)和医学等广泛范围的领域,以及它们更专门的子领域。我们的实证结果表明,ChatGPT-4在这些学科中的表现存在显著差异。值得注意的是,CS、BME和医学的建议文章的有效率超过65%,而在ME和EE领域,该模型未能验证任何文章为有效。此外,在检索与小众研究主题相关的文章时,ChatGPT-4倾向于提供与更广泛的主题领域相吻合的参考文献,而不是与狭义定义的感兴趣主题相符的参考文献。这种观察到的差异突显了不同研究领域精确性的明显变异,表明在学术研究中提高模型功能可能需要模型改进。我们的调查为当前基于人工智能的工具在学术研究中的能力和局限性提供了宝贵的见解,从而强调了人类监督和严格验证在利用这些模型进行学术追求中的不可或缺的作用。

作者:Zhi Cao

论文ID:2306.09914

分类:Digital Libraries

分类简称:cs.DL

提交时间:2023-06-19

PDF 下载: 英文版 中文版pdf翻译中