PIntron:通过模式和文本的最大配对进行基因结构预测的快速方法

摘要:大规模转录本(EST,mRNA)数据的外显子-内含子结构预测的当前计算方法,无法展现出处理超过20,000个EST和长度超过1Mb的基因簇所需的时间和空间效率。保证准确性和效率似乎是一个难以实现的计算目标,因为准确性与利用大规模基因簇中固有信息的冗余性紧密相关。我们提出了一种快速解决该问题的方法,该方法结合了两个思路:一种新颖的已证明具有小时间复杂度的算法,用于计算转录本与基因组的剪接对齐,以及一种高效算法,利用转录本簇中的固有信息冗余性,从EST序列的所有可能分解中选择那些能够通过输入数据高度确认剪接位点交叉的分解。EST对齐过程基于构建称为嵌入图的图结构的路径所获取的序列,该图的顶点是基因组序列T和EST P的最大配对。该过程的运行时间与P、T和输出的大小成线性关系。实现我们方法的软件工具PIntron能够在几秒钟内处理一些其他基因结构预测工具无法处理的关键基因。同时,与ENCODE数据相比,PIntron具有很高的准确性(灵敏度和特异性)。详细的实验数据、额外的结果和PIntron软件可在http://www.algolab.eu/PIntron上获得。

作者:Paola Bonizzoni and Gianluca Della Vedova and Yuri Pirola and Raffaella Rizzi

论文ID:1005.1514

分类:Genomics

分类简称:q-bio.GN

提交时间:2010-05-11

PDF 下载: 英文版 中文版pdf翻译中