使用k-means和Robinson和Foulds距离构建替代共识树和超级树
摘要:为了最好地表示给定一组基因系统发育树的最重要的演化模式,我们描述了一种新的高效方法,该方法用于推断多个备选共识树和超级树。我们展示了基于Robinson和Foulds距离的一些有趣属性的经过适应的k-means聚类算法的应用,可以将给定的一组树分割成一棵(对于同质数据)或多棵(对于异质数据)树的簇。此外,我们将受欢迎的Cali''nski-Harabasz、Silhouette、Ball和Hall以及Gap簇有效性指标适应到了带有k-means的树聚类中。我们特别关注了推断替代超级树的相关但非常具有挑战性的问题。该方法的客观函数具有欧几里得特性,使其比现有的树聚类技术更快,因此非常适用于分析大型演化数据集。我们将这种新方法应用于发现表征SARS-CoV-2和遗传相关的β冠状病毒的主要演化模式的替代超级树。
作者:Nadia Tahiri, Bernard Fichet and Vladimir Makarenkov
论文ID:2103.13343
分类:Populations and Evolution
分类简称:q-bio.PE
提交时间:2022-05-26