核主成分分析中变量解释性的改进-arXiv论文预印本中文版

核主成分分析中变量解释性的改进

摘要：核方法被证明是集成和分析高通量技术生成的数据的有力工具。核函数提供了任何基于点积的线性算法的非线性版本。核化主成分分析是一种有效的非线性替代方法，用于处理生物样本空间的非线性性。本文提出了一种基于KPCA数据表示的数据驱动特征重要性的新方法。所提出的方法，即核PCA可解释梯度（KPCA-IG），提供了一种计算快速且仅基于线性代数计算的数据驱动特征重要性。它已与三个基准数据集上的现有方法进行了比较。使用KPCA-IG选择的特征的准确性等于或大于其他方法的平均值。而且所需的计算复杂性显示了该方法的高效性。已对来自公开可用的肝细胞癌数据集的选定基因进行了详尽的文献搜索，以验证从生物学角度保留的特征。结果再次强调了计算的合理性。核PCA的黑盒特性需要新的方法来解释原始特征。我们提出的方法KPCA-IG被证明是在高维高通量数据集中选择有影响力的变量的有效替代方法，潜在地揭示出新的生物和医疗生物标志物。

作者：Mitja Briscik (IMT), Marie-Agn`es Dillies, S''ebastien D''ejean (IMT)

论文ID：2303.16682

分类：Applications

分类简称：stat.AP

提交时间：2023-08-22

PDF 下载： 英文版中文版pdf翻译中