蛋白质结构类别的深度学习:有关“非折叠”的任何证据?
摘要:通过从氨基酸序列准确预测蛋白质三维结构的最新计算进展,目前有机会解析蛋白质之间的相互关系。这项任务包括但不限于三维结构比较和分类问题。历史上,蛋白质域分类一直是一项主观而繁琐的任务,依赖于各种启发式算法。像CATH这样的数据库代表了更系统化和可自动化方法的重要进步,但在基于机器学习的可扩展和量化分类方法的发展方面仍有很大的空间。我们怀疑通过深度学习方法重新审视这些关系可能需要大规模的分类方案重构,从而改进蛋白质之间远程关系的可解释性。在这里,我们描述了在蛋白质域结构和其相关的物理化学性质上训练深度学习模型,以评估CATH的"同源超家族"(SF)级别上的分类特性。为了实现这一点,我们设计并应用了一种图像分类方法和图像分割技术的扩展,利用了卷积自编码器模型架构。我们的深度学习架构允许模型学习结构特征,从某种意义上来说,这些特征"定义"了不同的同源超家族。我们通过建立一个SF模型并比较模型的损失函数来评估和量化SF之间的"距离"。在这些距离矩阵上进行层次聚类提供了蛋白质相互关系的新视角,超越了简单的结构/几何相似性,朝着结构/功能属性的领域发展。
作者:Menuka Jaiswal, Saad Saleem, Yonghyeon Kweon, Eli J Draizen, Stella Veretnik, Cameron Mura, Philip E. Bourne
论文ID:2005.08443
分类:Biomolecules
分类简称:q-bio.BM
提交时间:2020-05-19