大数据的监督降维
摘要:通过实验测量每个样本的数百万或数十亿个特征(维度)已经成为解决关键生物医学问题的常规做法,希望借助数据科学技术能够构建准确的数据驱动推断。由于样本量通常比数据的维度小几个数量级,有效的推断需要找到一个保留有歧视信息的低维表示(例如个体是否患有特定疾病)。至今还缺乏可解释的有监督降维方法,能够适应数百万维度,并具有强大的统计理论保证。我们引入了一种称为XOX的方法,通过将类条件矩估计纳入低维投影中来扩展主成分分析。其中最简单的版本“线性最优低秩”投影(LOL)纳入了类条件均值。我们证明并通过合成数据和实际数据基准来证实,LOL及其在XOX框架中的推广可以为后续分类提供改进的数据表示,同时保持计算效率和可扩展性。在使用超过1.5亿个特征的多个脑成像数据集和多个拥有超过50万个特征的基因组学数据集的实验中,LOL在准确性方面优于其他可扩展的线性降维技术,仅需要在标准台式计算机上数分钟。
作者:Joshua T. Vogelstein, Eric Bridgeford, Minh Tang, Da Zheng, Christopher Douville, Randal Burns, Mauro Maggioni
论文ID:1709.01233
分类:Machine Learning
分类简称:stat.ML
提交时间:2021-01-26