CoHSI III:长蛋白质及其对蛋白质进化的影响

摘要:蛋白质在氨基酸中的长度分布遵循CoHSI(Hartley-Shannon信息保持)概率分布。在以前的研究中,我们利用Uniprot数据库验证了该概率分布的各种预测,但在这里,我们探索了最长蛋白质和进化时间之间的新预测关系。我们从理论和实验两方面证明了最长蛋白质和蛋白质总数之间存在密切关系,并给出了一个简单的公式。我们强调,不需要进化解释;这是CoHSI系统的固有属性。虽然CoHSI分布更倾向于出现具有少于750个氨基酸的蛋白质(多数功能蛋白质或其组成域的特征),但它的固有渐进幂律也更倾向于出现异常长的蛋白质;我们预测还存在着超过45,000个氨基酸的尚未发现的蛋白质。在此过程中,我们将蛋白质折叠过程与有利通路(或漏斗)通过蛋白质构象的能量景观驱动相提并论,并将CoHSI在离散系统中施加约束的优选信息通路进行类比。 最后,我们展示了CoHSI预测了最长蛋白质在进化时间上的最近出现,特别是在真核生物中,因为它们具有更丰富的氨基酸独特字母表,并与独立的系统发育数据相结合,我们确认了最长蛋白质与已记录和潜在未记录的物种大灭绝之间的一致关系。

作者:Les Hatton, Gregory Warr

论文ID:1810.08614

分类:Other Quantitative Biology

分类简称:q-bio.OT

提交时间:2018-10-23

PDF 下载: 英文版 中文版pdf翻译中