计算Phylo-k-mers

摘要:基于系统发育信息的k-mer简称为phylo-k-mer,预测它们将在固定的系统发育树预定位置上出现在给定基因组区域内。在给定该基因组区域的参考序列比对和假设序列进化的系统发育模型的情况下,我们可以计算在任何给定树节点上任何给定k-mer的概率得分。具有足够高概率的k-mer可以用于后续的无序列比对的系统发育分类,这是最近提出的一种用于排列技术元条码读取和检测新病毒重组体的系统发育放置过程。在计算phylo-k-mer时,我们需要考虑每个树节点上的大量k-mer,这需要开发高效的枚举算法。我们考虑了phylo-k-mer计算问题的形式定义:如何高效地找到所有概率高于用户定义阈值的k-mer,对于给定的树节点?我们描述和分析了解决该问题的算法,依赖于分支限界和分而治之的技术。我们利用比对窗口的冗余性和概率矩阵的结构来减少计算量。除了计算复杂性分析外,我们还对实际数据和模拟数据上实现的相对性能进行了经验评估。据我们所知,分而治之算法是新颖的,发现它们明显优于分支限界方法,特别是当找到大量phylo-k-mer时。

作者:Nikolai Romashchenko (MAB), Benjamin Linard (MAB), Fabio Pardi (MAB), Eric Rivals (MAB)

论文ID:2209.09242

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2022-09-21

PDF 下载: 英文版 中文版pdf翻译中