大数据的监督降维-arXiv论文预印本中文版

大数据的监督降维

摘要：通过实验测量每个样本的数百万或数十亿个特征（维度）已经成为解决关键生物医学问题的常规做法，希望借助数据科学技术能够构建准确的数据驱动推断。由于样本量通常比数据的维度小几个数量级，有效的推断需要找到一个保留有歧视信息的低维表示（例如个体是否患有特定疾病）。至今还缺乏可解释的有监督降维方法，能够适应数百万维度，并具有强大的统计理论保证。我们引入了一种称为XOX的方法，通过将类条件矩估计纳入低维投影中来扩展主成分分析。其中最简单的版本“线性最优低秩”投影（LOL）纳入了类条件均值。我们证明并通过合成数据和实际数据基准来证实，LOL及其在XOX框架中的推广可以为后续分类提供改进的数据表示，同时保持计算效率和可扩展性。在使用超过1.5亿个特征的多个脑成像数据集和多个拥有超过50万个特征的基因组学数据集的实验中，LOL在准确性方面优于其他可扩展的线性降维技术，仅需要在标准台式计算机上数分钟。

作者：Joshua T. Vogelstein, Eric Bridgeford, Minh Tang, Da Zheng, Christopher Douville, Randal Burns, Mauro Maggioni

论文ID：1709.01233

分类：Machine Learning

分类简称：stat.ML

提交时间：2021-01-26

PDF 下载： 英文版中文版pdf翻译中