基于与蛋白质功能家族相关联的随机树的模式识别-arXiv论文预印本中文版

基于与蛋白质功能家族相关联的随机树的模式识别

摘要：通过使用蛋白质的氨基酸序列中包含的信息来确定蛋白质的功能是这篇论文的研究问题。我们提出了一种定义序列相似性关系的方法，该方法可以用作分类和聚类的输入，通过应用统计学上基于度量的著名方法来实现。在我们的实验中，我们针对结构基因组学中的监督和无监督学习的两个问题，通过基于树空间的简单基于度量的技术进行了特别讨论。第一，通过在树空间中应用K均值聚类的无监督检测功能家族。第二，通过k最近邻树将新的蛋白质分类到已知家族中。我们发现，我们的方法引起的相似性度量集中了区分信息的证据。分类与其他VLMC方法相比具有相同的高性能。聚类是一项更困难的任务，但我们的聚类方法是无需对齐的和自动的，并且可以通过选择其他基于预先计算的相似性信息的聚类或分类程序来得到许多有趣的变化，例如使用流模拟进行聚类的程序（参考Yona et al 2000, Enright et al, 2003）。

作者：A. G. Flesia, R. Fraiman, F. G. Leonardi

论文ID：0711.1369

分类：Applications

分类简称：stat.AP

提交时间：2007-11-12

PDF 下载： 英文版中文版pdf翻译中