评估问题的知识依赖性-arXiv论文预印本中文版

评估问题的知识依赖性

摘要：自动生成多项选择题（MCQ）有潜力显著减少教育工作者在学生评估上花费的时间。然而，现有的MCQ生成评估指标，如BLEU，ROUGE和METEOR，侧重于生成的MCQ与数据集中的标准样本之间的n-gram相似性，而忽视了它们的教育价值。它们无法评估MCQ在评估学生对相应目标事实的知识能力方面的能力。为解决这个问题，我们提出了一种新颖的自动评估指标，称为知识相关的可回答性（KDA），用于测量基于目标事实知识的MCQ的可回答性。具体而言，我们首先展示了如何基于来自人类调查的学生回答来衡量KDA。然后，我们提出了两种自动评估指标，KDA\_disc和KDA\_cont，通过利用预训练的语言模型模拟学生的问题解决行为来逼近KDA。通过我们的人类研究，我们表明KDA\_disc和KDA\_soft与（1）KDA和（2）由专家标记的实际课堂设置中的可用性之间存在强烈相关性。此外，当与基于n-gram相似性的指标相结合时，KDA\_disc和KDA\_cont对各种专家标记的MCQ质量指标具有强大的预测能力。

作者：Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee, Myeongho Jeong, Juneyoung Park, Minsam Kim, Seungtaek Choi

论文ID：2211.11902

分类：Computation and Language

分类简称：cs.CL

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中