不完整的最大均值差异估计中的后选择推断
摘要:通过合适的距离度量衡量两个分布之间的差异对于机器学习和统计学非常重要,并且具有诸如二分类、变点检测和两样本检验等多种应用。此外,在大数据时代,设计适用于高维和复杂数据的可解释的距离度量也变得极为重要。本文中,我们提出了一种用于距离度量的后选择推断(PSI)框架,该框架能够选择一组在两个分布之间有显著差异的特征。具体而言,我们采用了最大均值差异(MMD)的加性变体作为特征,并引入了一种用于PSI的通用假设检验方法。我们还提出了一种新颖的MMD估计器,该估计器使用了不完全U统计量,具有渐近正态分布(在温和的假设下),并在PSI中具有较高的检测力,理论上进行了分析。通过合成和真实世界的特征选择实验,我们证明了所提出的框架能够成功检测出具有统计显著性的特征。最后,我们提出了一种用于分析生成对抗网络(GANs)系列中不同成员的样本选择框架。
作者:Makoto Yamada, Denny Wu, Yao-Hung Hubert Tsai, Ichiro Takeuchi, Ruslan Salakhutdinov, Kenji Fukumizu
论文ID:1802.06226
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-02-20