热带进化树的密度估计

摘要:通过生物学理论和实证数据,有很多证据表明,基因树(由不同基因(位点)重建的系统进化树)不一定具有完全相同的拓扑结构。这种基因树之间的不一致性可能由某些“异常”的进化事件引起,例如真核生物的减数分裂有性重组或原核生物的水平基因转移。然而,大多数基因树受到物种树的拓扑结构的约束,即给定物种的系统进化树,该树按照其进化历史构建。为了发现不遵循树的“主要分布”的“离群”基因树,我们提出将“热带度量”应用于基因树的非参数估计,该度量利用热带几何的max-plus代数定义在系统进化树的空间上。在这项研究中,我们将“热带度量”应用于基因树在树空间上的非参数估计,热带度量是max-plus代数下系统进化树空间中的一种定义明确的度量。核密度估计器(KDE)是从给定样本估计一个分布的最流行的非参数估计方法之一,我们在热带几何的设置中提出了传统KDE的类比方法,该方法使用热带度量来测量树空间中两个树之间的内禀测地线的长度。我们通过观察到的附近树的经验频率估计观察到的树的概率,受热带度量的影响程度确定。然后,我们使用多种物种共同适应模型生成的模拟数据表明,使用热带度量的基因树分布的非参数估计在计算时间和准确性方面比使用Weyenberg等人开发的Billera-Holmes-Vogtmann(BHV)度量更好。然后,我们将其应用于Apicomplexa数据。

作者:Ruriko Yoshida and David Barnhill and Keiji Miura and Daniel Howe

论文ID:2206.04206

分类:Populations and Evolution

分类简称:q-bio.PE

提交时间:2023-07-13

PDF 下载: 英文版 中文版pdf翻译中