预测蛋白稳定性变化的准确性的自然上界

摘要:蛋白质单点突变引起的蛋白质稳定性变化(DDG)的准确预测对蛋白质设计以及对遗传疾病机制的理解都非常重要。目前,评估高通量计算方法的性能主要基于预测数据与观测数据之间的皮尔逊相关系数,假设上限为1(完美相关)。然而,这些预测器的性能可能会受到实验数据的分布和噪声的限制。本研究首次对目前可用的DDG数据的内在结构估计了DDG预测性能的理论上限。针对一组测量到的DDG蛋白质变化,我们根据与另一组实验确定的DDG值的相似性估计了理论上最佳的预测器。我们研究了一对测量到的DDG变化之间的相关性,其中一个被用作另一个的预测器。我们以DDG数据的噪声和分布为函数,推导了皮尔逊相关系数的理论上限。我们还评估了可用的数据集,突出了噪声与DDG分布的影响。我们得出结论,上限取决于DDG值的不确定性和分布的功能,目前的数据表明最佳性能应该在0.7-0.8之间,具体取决于所用数据集;较高的皮尔逊相关系数可能表明过度训练。此外,使用不同数据集进行预测器比较本质上是误导性的。

作者:Ludovica Montanucci, Pier Luigi Martelli, Nir Ben-Tal, Piero Fariselli

论文ID:1809.10389

分类:Biomolecules

分类简称:q-bio.BM

提交时间:2018-09-28

PDF 下载: 英文版 中文版pdf翻译中