基于接触图重叠的蛋白质结构分类迈进

摘要:蛋白质3D结构相似度的度量方法已经提出了很多。在这些方法中,接触图重叠(CMO)最大化在过去十年中受到持续关注,因为它可以很好地估计蛋白质之间的自然同源关系。尽管生物信息学和计算机科学界对此进行了大量研究,但已知算法的性能仍然有限。由于问题的复杂性,它们在相对较小的实例中陷入困境,并且不适用于大规模比较。本文在这方面对过去的方法进行了明显的改进。我们提出了一个新的整数规划模型用于CMO,并提出了一个通过求解拉格朗日松弛计算边界的精确B & B算法。该方法的效率在一个常用的小型基准测试(Skolnick数据集,40个结构域)上得到了证明。在这个数据集上,我们的算法明显优于现有的最佳精确算法,并提供了更好质量的下界和上界。一些困难的CMO实例首次在合理的时间限制内得到了解决。通过运行时间和相对差(上界和下界之间的相对差异),我们得到了正确的分类结果。这些令人鼓舞的结果促使我们设计了一个更难的基准测试,以更好地评估我们方法的分类能力。我们构建了一个包含300个蛋白质结构域(ASTRAL数据库的一个子集)的大规模数据集,我们称之为Proteus 300。使用任意44850对之间的相对差作为相似度度量,我们得到了与SCOP非常一致的分类。因此,我们的算法为大型结构数据库提供了一个强大的分类工具。

作者:Rumen Andonov (IRISA), Nicola Yanev, No"el Malod-Dognin (IRISA)

论文ID:0711.4208

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2009-04-20

PDF 下载: 英文版 中文版pdf翻译中