蛋白质对齐中的子集种子
摘要:应用[1]中提出的子集种子概念到蛋白质序列的相似性搜索。主要研究问题是设计高效的种子字母表,以构建具有最佳灵敏度/选择性权衡的种子。我们提出了几种不同的设计方法,并使用它们来构建几个字母表。然后,我们对这些字母表上构建的种子进行比较分析,并将它们与标准的BLASTP种子方法[2],[3]以及[4]中提出的向量种子族进行比较。虽然子集种子的形式主义不如BLASTP和向量种子中使用的累积原理(但实现成本更低),但我们的种子在与常见的BLOSUM62矩阵兼容的蛋白质伯努利模型上表现出与BLASTP类似甚至更好的性能。最后,我们针对几个主要的蛋白质比对数据库对我们的种子进行大规模基准测试。再次验证结果表明,与BLASTP相比,我们的种子表现出类似或更好的性能。
作者:Mikhail A. Roytberg (IMPB), Anna Gambin, Laurent No''e (LIFL, INRIA Lille - Nord Europe), Slawomir Lasota, Eugenia Furletova (IMPB), Ewa Szczurek (MPI), Gregory Kucherov (LIFL, INRIA Lille - Nord Europe)
论文ID:0901.3198
分类:Quantitative Methods
分类简称:q-bio.QM
提交时间:2011-01-18