使用辅助观测数据在随机实验中进行精确无偏估计
摘要:随机对照试验在教育研究中越来越常见,并被视为因果推断的黄金标准。随机实验的两个主要优点是,它们(1)不受混杂因素的影响,从而可以对干预的因果影响进行无偏估计,以及(2)可以进行基于设计的推断,这意味着随机分组的物理行为在很大程度上证明了所做的统计假设。然而,RCT样本容量通常较小,导致估计的精度较低;在许多情况下,RCT的估计可能过于不精确,无法指导政策或为科学提供信息。相比之下,观察性研究具有与随机对照试验互补的优点和缺点。观察性研究通常具有更大的样本容量,但可能存在混杂因素。在许多情况下,实验和观察数据并存,这使得“大观察数据”与“小型但高质量的实验数据”相结合的可能性得以实现,以获得最佳效果。这种方法在教育领域有着特殊的潜力,因为由于成本限制,随机对照试验的样本容量通常较小,但自动收集观察数据(例如计算机化教育技术应用程序或具有数十万学生的州级纵向数据系统(SLDS)中的行政数据)已经广泛可用。我们概述了一种方法,可以利用机器学习算法从观察数据中学习,并使用所得模型提高随机实验的精度。重要的是,并不要求机器学习模型在任何意义上都是“正确”的,最终的实验结果也保证是完全无偏的。因此,观察数据中的混杂偏差不会泄漏到实验中。
作者:Johann A. Gagnon-Bartsch, Adam C. Sales, Edward Wu, Anthony F. Botelho, John A. Erickson, Luke W. Miratrix, Neil T. Heffernan
论文ID:2105.03529
分类:Applications
分类简称:stat.AP
提交时间:2023-05-23