评估问题的知识依赖性

摘要:自动生成多项选择题(MCQ)有潜力显著减少教育工作者在学生评估上花费的时间。然而,现有的MCQ生成评估指标,如BLEU,ROUGE和METEOR,侧重于生成的MCQ与数据集中的标准样本之间的n-gram相似性,而忽视了它们的教育价值。它们无法评估MCQ在评估学生对相应目标事实的知识能力方面的能力。为解决这个问题,我们提出了一种新颖的自动评估指标,称为知识相关的可回答性(KDA),用于测量基于目标事实知识的MCQ的可回答性。具体而言,我们首先展示了如何基于来自人类调查的学生回答来衡量KDA。然后,我们提出了两种自动评估指标,KDA\_disc和KDA\_cont,通过利用预训练的语言模型模拟学生的问题解决行为来逼近KDA。通过我们的人类研究,我们表明KDA\_disc和KDA\_soft与(1)KDA和(2)由专家标记的实际课堂设置中的可用性之间存在强烈相关性。此外,当与基于n-gram相似性的指标相结合时,KDA\_disc和KDA\_cont对各种专家标记的MCQ质量指标具有强大的预测能力。

作者:Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee, Myeongho Jeong, Juneyoung Park, Minsam Kim, Seungtaek Choi

论文ID:2211.11902

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中