ParaFold:用于大规模预测的AlphaFold并行化
摘要:AlphaFold:从氨基酸序列预测蛋白质结构,其实验分辨率接近,解决了持续50年的蛋白质折叠难题,通过将大规模基因组数据转化为蛋白质结构来取得进展。AlphaFold还将大大改变科学研究模式,从低通量转变为高通量方式。AlphaFold框架是两种工作负载的混合体:基于CPU的MSA构建和基于GPU的模型预测。第一个CPU阶段占据了整体运行时间,由于大型数据库和I/O瓶颈,一个单独的蛋白质需要几个小时。然而,在这个CPU阶段中,GPU处于闲置状态,导致GPU利用率低,限制了大规模结构预测的能力。因此,我们提出了ParaFold,这是一个开源的AlphaFold并行版本,用于高通量蛋白质结构预测。ParaFold将CPU和GPU部分分离,以实现大规模结构预测。ParaFold通过两种优化有效减少了CPU和GPU的运行时间,而不会影响预测结果的质量:在CPU上使用多线程并行性和在GPU上使用优化的JAX编译。我们使用三个不同大小和蛋白质长度的数据集评估了ParaFold。我们评估了在CPU和GPU上的优化的准确性和效率,并通过在一个NVIDIA DGX-2上运行ParaFold预测19,704个小蛋白质的结果,在五个小时内展示了大规模预测能力。使用JAX编译优化,ParaFold比AlphaFold平均加速了13.8倍。ParaFold提供了一种快速有效的高通量结构预测方法,通过在超级计算机上运行,缩短时间并降低成本,充分发挥预测能力。ParaFold的开发将大大加速高通量研究,并使蛋白质"结构组学"成为可能。
作者:Bozitao Zhong, Xiaoming Su, Minhua Wen, Sichen Zuo, Liang Hong and James Lin
论文ID:2111.06340
分类:Biomolecules
分类简称:q-bio.BM
提交时间:2021-11-16