DNA序列数据的压缩技术分析

摘要:生物数据主要包括脱氧核糖核酸(DNA)和蛋白质序列。这些是存在于人类所有细胞中的生物分子。由于DNA具有自我复制的特性,它是存在于所有呼吸生物体中的遗传物质的关键组成部分。这种生物分子(DNA)包含了所有人类生命运行和扩展所必需的遗传物质。为了保存单个人的DNA数据,我们需要10个CD-ROM。此外,这个大小还在不断增加,公共数据库中还在添加越来越多的序列。序列数据的大量增加给从中提取准确信息造成了挑战,因为许多数据分析和可视化工具不支持处理如此庞大的数据量。为了减小DNA和蛋白质序列的大小,许多科学家引入了各种序列压缩算法,如压缩或gzip、上下文树加权(CTW)、Lampel Ziv Welch(LZW)、算术编码、行长度编码和替代方法等。这些技术已经有效地减小了生物数据集的大小。另一方面,传统的压缩技术对于压缩这些类型的序列数据也不太适用。在本文中,我们探讨了各种技术来压缩大量的DNA序列数据。在本文中,技术分析揭示了高效的技术不仅可以减小序列的大小,还可以避免任何信息损失。现有研究的回顾还表明,DNA序列的压缩对于了解DNA数据的关键特征以及提高存储效率和数据传输至关重要。此外,蛋白质序列的压缩对于研究社区来说是一个挑战。评估这些压缩算法的主要参数包括压缩比、运行时间复杂度等。

作者:Shakeela Bibi, Javed Iqbal, Adnan Iftekhar, Mir Hassan

论文ID:2006.02232

分类:Other Quantitative Biology

分类简称:q-bio.OT

提交时间:2020-06-04

PDF 下载: 英文版 中文版pdf翻译中