防泄漏的PDBBind:一个重新组织的蛋白质-配体复合物数据集,用于更具普适性的结合亲和力预测

摘要:训练和预测蛋白质小分子结合自由能的基于物理和机器学习的评分函数(SFs)大多数都是基于PDBBind数据集。然而,针对新的评分函数是否真的在提高性能存在争议,因为PDBBind的一般、细化和核心数据集存在蛋白质和小分子之间有高度相似性的交叉污染,因此它们可能在新的蛋白质-小分子结合预测中表现不一致。在这项工作中,我们精心准备了一个清洁的非共价结合的PDBBind数据集,并将其划分为训练、验证和测试数据集以控制数据泄漏。使用结果无泄漏(LP)-PDBBind数据对四个流行的SFs进行了重新训练:AutoDock vina, Random Forest (RF)-Score, InteractionGraphNet (IGN)和DeepDTA,以更好地测试它们在应用于新的蛋白质-小分子复合体时的能力。特别是,我们形成了一个新的独立数据集BDB2020+,通过匹配自2020年以来存储在PDB中的结合自由能高质量数据与共结晶配体-蛋白质复合物。根据所有的基准结果,依赖于3D信息的使用LP-PDBBind重新训练的模型在性能表现上始终处于最佳水平,其中IGN尤其推荐用于新的蛋白质-小分子系统的评分和排序应用。

作者:Jie Li, Xingyi Guan, Oufan Zhang, Kunyang Sun, Yingze Wang, Dorian Bagni, and Teresa Head-Gordon

论文ID:2308.09639

分类:Biological Physics

分类简称:physics.bio-ph

提交时间:2023-08-21

PDF 下载: 英文版 中文版pdf翻译中