HSEARCH:快速准确的蛋白质序列模体搜索和聚类
摘要:蛋白质模体是在蛋白质序列中频繁出现的保守片段。它们具有重要的功能,例如酶的活性位点。搜索和聚类蛋白质序列模体是计算密集型的任务。现有的大多数方法在寻找模体或进行模体聚类时速度不够快,或者精度不够高。我们提出了一种新的蛋白质序列模体寻找和聚类算法,称为HSEARCH。它将固定长度的蛋白质序列转化为高维空间中的数据点,并应用局部敏感哈希来快速搜索同源蛋白质序列以找到模体。HSEARCH比蛮力算法快得多,并且在蛋白质模体聚类方面具有高精度。
作者:Haifeng Chen and Ting Chen
论文ID:1701.00452
分类:Genomics
分类简称:q-bio.GN
提交时间:2017-01-03