重复蛋白质序列空间的大小和结构

摘要:蛋白质序列的编码空间受到功能和稳定性要求所形成的进化约束的影响。我们展示了利用基于自然产生的氨基酸序列的多重序列比对进行训练的最大熵模型可以估计给定蛋白质家族的编码空间,即该家族中序列的总数。我们分析并计算了三个丰富的重复蛋白质家族的大小,这些成员是由大量保守的约30个氨基酸重复部分构成的大蛋白质。尽管比对中每个位置的氨基酸保守性可以解释与完全随机序列相比的多样性减少的大部分情况,但我们发现不同位置处的氨基酸使用之间的相关性显著影响多样性。我们量化了不同类型的相关性,包括功能性和进化性,对序列多样性的影响。对家族编码空间的详细结构进行分析揭示了一个崎岖的景观,其中有许多大小不同的局部能量最小值,并具有分层结构,类似于物理学中的自旋玻璃的受阻能量景观。这种聚类结构表明每个家族内存在多样的亚型,并提出了蛋白质设计的新策略。

作者:Jacopo Marchi, Ezequiel A. Galpern, Rocio Espada, Diego U. Ferreiro, Aleksandra M. Walczak, Thierry Mora

论文ID:1905.04493

分类:Biomolecules

分类简称:q-bio.BM

提交时间:2020-11-20

PDF 下载: 英文版 中文版pdf翻译中