DiviK:分裂智能的K-Means用于大规模生物数据的无监督聚类

摘要:调查分子的异质性可以提供有关肿瘤起源和代谢组的见解。由于收集到的数据量不断增加,手动分析变得不可行 - 因此,利用自动非监督学习方法来发现异质性。然而,自动非监督分析需要具有设置超参数的丰富经验,并且通常需要预先知道预期亚结构的数量。此外,许多测得的分子需要进行特征工程的额外步骤以提供有价值的结果。在这项工作中,我们提出了DiviK:一种可扩展的逐步算法,具有本地数据驱动的特征空间适应方法,用于分割高维数据集。结合三个质量指标:Dice指标、Rand指标和EXIMS得分,用于评估三维空间中非监督分析的质量。DiviK在通过质谱成像获得的两个独立高通量数据集上进行了验证,它能够在质谱成像数据的初始探索过程中成为默认的选择之一。它在绝对异质性检测和对生物合理结构的关注之间提供了一种权衡,并且不需要在分析之前指定预期的结构数量。由于其独特的本地特征空间适应性,在注重细节时对主导全局模式具有鲁棒性。最后,由于其简单性,DiviK容易推广到更灵活的框架,适用于其他“-omics”数据或一般的表格数据(包括经过适当嵌入的医学图像)。通用的实现在Apache 2.0许可证下免费提供,网址为https://github.com/gmrukwa/divik。

作者:Grzegorz Mrukwa (1 and 2) and Joanna Polanska (1) ((1) Silesian University of Technology, (2) Netguru)

论文ID:2009.10706

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2023-01-19

PDF 下载: 英文版 中文版pdf翻译中