通过战略领域中核苷酸的局部分布对DNA序列进行分析
摘要:用$ mathbb {R} ^ {24} $上的紧凑向量表示构建了一种新的无序列对齐算法,该向量是任意长度DNA序列的。该向量的每个分量是从代表性序列中获得的,该代表性序列的元素是函数$ Gamma $实现的值。所定义的函数$ Gamma $作用于位于DNA序列内的战略位置上的任意半径邻域。由于整数的质因数分解的唯一性,$ Gamma $承载了关于核苷酸的局部频率分布的完整信息。该算法具有线性时间复杂度,并且具有高效的空间利用率。通过将系统发育树与鱼mtDNA数据集的全基因组序列基准进行比较,可以确定描述邻域半径和位置的两个自然参数。利用这些适配参数,进一步对一些来自基准和其他标准数据集的基因组序列进行分析。
作者:Probir Mondal, Pratyay Banerjee and Krishnendu Basuli
论文ID:2303.14994
分类:Data Structures and Algorithms
分类简称:cs.DS
提交时间:2023-07-14