基于最小缺失词的新距离及其在生物序列中的应用
摘要:序列x的最小缺少词是一个不是x的因子的序列y,但是它的所有适当因子也是x的因子。最小缺词集唯一确定了序列本身。最近,最小缺词已被用来比较序列。事实上,可以通过比较它们的最小缺词集来实现。Chairungasee 和 Crochemorein [2]定义了一对序列x和y之间的距离,其中涉及x和y的最小缺词集的对称差。在这里,我们考虑一种不同的距离,它是基于这种对称差的特定子集的,我们认为更能准确捕捉到所考虑序列的不同特征。我们展示了一些实验结果,其中使用该距离对11个生物物种的基因序列数据集进行了测试,以便将这种新距离与文献中已有的距离进行比较。
作者:Giuseppa Castiglione, Jia Gao, Sabrina Mantaci, Antonio Restivo
论文ID:2105.14990
分类:Formal Languages and Automata Theory
分类简称:cs.FL
提交时间:2021-06-01