HSEARCH:快速准确的蛋白质序列模体搜索和聚类

摘要:蛋白质模体是在蛋白质序列中频繁出现的保守片段。它们具有重要的功能,例如酶的活性位点。搜索和聚类蛋白质序列模体是计算密集型的任务。现有的大多数方法在寻找模体或进行模体聚类时速度不够快,或者精度不够高。我们提出了一种新的蛋白质序列模体寻找和聚类算法,称为HSEARCH。它将固定长度的蛋白质序列转化为高维空间中的数据点,并应用局部敏感哈希来快速搜索同源蛋白质序列以找到模体。HSEARCH比蛮力算法快得多,并且在蛋白质模体聚类方面具有高精度。

作者:Haifeng Chen and Ting Chen

论文ID:1701.00452

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-01-03

PDF 下载: 英文版 中文版pdf翻译中