重访分类器两样本检验

摘要:二样本检验的目标是评估两个样本$S_P \sim P^n$和$S_Q \sim Q^m$是否来自同一分布。有一种相对未被探索的建立二样本检验的方法是使用二分类器。具体而言,通过将$S_P$中的$n$个样本与正标签配对,并将$S_Q$中的$m$个样本与负标签配对来构建数据集。如果零假设“$P = Q$”成立,则二分类器在这个数据集的一个被保留的子集上的分类准确率应该接近随机水平。正如我们将展示的那样,这样的分类器二样本测试(C2ST)在使用中学习了适当的数据表示,返回的测试统计量具有可解释的单位,具有简单的空分布,并且它们的预测不确定性有助于解释$P$和$Q$之间的差异。本文的目标是建立C2ST的性质、性能和用途。首先,我们分析了它们的主要理论性质。其次,我们将它们与各种最先进的替代方法进行了比较。第三,我们提出了使用它们来评估具有难以计算似然函数的生成模型的样本质量,例如生成对抗网络(GANs)。第四,我们展示了GANs与C2ST的新颖应用于因果发现。

作者:David Lopez-Paz, Maxime Oquab

论文ID:1610.06545

分类:Machine Learning

分类简称:stat.ML

提交时间:2018-03-14

PDF 下载: 英文版 中文版pdf翻译中