低带宽和非计算密集的原始测序读数远程鉴定微生物

摘要:便宜高通量的DNA测序可能很快将不仅仅成为人类基因组的常态,还适用于几乎任何需要通过DNA进行生物体鉴定的领域:追踪传染病源、食品产品控制、生物反应器或环境样本等。我们提出了一种新的通用方法来分析测序数据,其中不需要指定参考基因组。通过使用分布式架构,我们能够向远程服务器查询参考基因组的暗示,传输相对较小的数据量,这些暗示可以用于更加计算密集的工作。我们的系统由一个具有已知参考DNA索引的服务器和一个具有原始测序读数的客户端组成。客户端发送未知读数的样本,并获得已知于服务器的匹配参考的列表。参考序列可被检索并用于对读数进行详尽的计算,例如比对。为了演示这种方法,我们实现了一个网络服务器,索引了数以万计的来自各种生物体的公共基因组和基因组区域,并返回与查询测序读数匹配的命中列表。我们还实现了两个客户端,其中一个在网络浏览器中运行,以演示能够在不需传输大量数据和在性能适中的计算设备上识别出原始测序读数来源不明的几十GB数据。可以通过http://tapir.cbs.dtu.dk进行网络访问。Python命令行客户端的源代码、服务器和补充数据可以在http://bit.ly/1aURxkc下载。

作者:Laurent Gautier, Ole Lund

论文ID:1306.1569

分类:Genomics

分类简称:q-bio.GN

提交时间:2014-03-05

PDF 下载: 英文版 中文版pdf翻译中