基因组压缩与参考对照
摘要:用于存储和传输人类基因组序列是基因组研究和工业应用的重要组成部分。完整的人类基因组有31亿个碱基对(单倍体),存储整个基因组需要大约3 GB的空间,对于大规模使用来说是不可行的。 然而,人类基因组高度冗余。任何一个给定个体的基因组与另一个个体的基因组的差异小于1%。有一些工具,例如DNAZip,可以通过只记录给定序列与参考基因组序列之间的差异来表达给定基因组序列。这样可以将给定的基因组无失真地压缩到约4 MB大小。 在这项工作中,我们在DNAZip库的基础上展示了额外的改进,相比DNAZip已经令人印象深刻的结果,我们额外压缩了约11%。这将进一步节省传输人类基因组序列的磁盘空间和网络成本。
作者:Anirduddha Laud, Gaurav Menghani, Madhava Keralapura
论文ID:2010.02286
分类:Genomics
分类简称:q-bio.GN
提交时间:2020-10-07