混合模型的系统发育:最大似然和不可辨识分布的稳健性
摘要:从混合分布生成数据时,我们解决了系统发育重建的问题。这些主题在生物学界引起了广泛关注,因为有明确的证据表明突变率的异质性。在我们的工作中,我们考虑了来自树的混合数据,这些树在拓扑结构上是共享的,但在边缘权重(即分支长度)上有所区别。首先,我们展示了流行方法(包括最大似然和马尔可夫链蒙特卡洛算法)的缺陷。然后,我们确定了在混合分布下,在哪些进化模型中重建树的拓扑结构是(不)可能的。我们证明了每个其过渡矩阵可以由一个多线性多项式的开集参数化的模型,要么具有不可识别的混合分布,这种情况下通常无法进行重建,要么存在线性测试可以识别拓扑结构。这个二元定理依赖于我们线性测试的概念,并使用了凸规划对偶的思想。线性测试与线性不变量密切相关,线性不变量最初由Lake引入,从代数几何的角度来看是自然的。
作者:Daniel Stefankovic and Eric Vigoda
论文ID:q-bio/0609038
分类:Populations and Evolution
分类简称:q-bio.PE
提交时间:2007-05-23