基于最小缺失词的新距离及其在生物序列中的应用

摘要:序列x的最小缺少词是一个不是x的因子的序列y,但是它的所有适当因子也是x的因子。最小缺词集唯一确定了序列本身。最近,最小缺词已被用来比较序列。事实上,可以通过比较它们的最小缺词集来实现。Chairungasee 和 Crochemorein [2]定义了一对序列x和y之间的距离,其中涉及x和y的最小缺词集的对称差。在这里,我们考虑一种不同的距离,它是基于这种对称差的特定子集的,我们认为更能准确捕捉到所考虑序列的不同特征。我们展示了一些实验结果,其中使用该距离对11个生物物种的基因序列数据集进行了测试,以便将这种新距离与文献中已有的距离进行比较。

作者:Giuseppa Castiglione, Jia Gao, Sabrina Mantaci, Antonio Restivo

论文ID:2105.14990

分类:Formal Languages and Automata Theory

分类简称:cs.FL

提交时间:2021-06-01

PDF 下载: 英文版 中文版pdf翻译中