基于混沌游戏表示和视觉变换器的噬菌体病毒颗粒蛋白分类(PhaVIP)

摘要:高通量测序技术使我们能够以较低的成本获取不同微生物组中的噬菌体。然而,与新发现的噬菌体不断积累相比,噬菌体蛋白质分类仍然很困难。特别是,对于注释噬菌体蛋白质,即结构蛋白质(如主尾、基板等),存在基本需求。虽然有实验方法可以用于结构蛋白质的鉴定,但它们成本过高或耗时且鉴定不完整。因此,迫切需要开发一种快速准确的计算方法来进行噬菌体结构蛋白质的分类。本文使用最先进的图像分类模型Vision Transformer,通过使用混沌游戏表示将蛋白质序列编码为唯一的图像,从而进行结构蛋白质的分类。我们的方法PhaVIP主要有两个功能:对结构蛋白质和非结构蛋白质进行分类,并注释结构蛋白质的类型,如壳蛋白和尾蛋白。我们在几个难度逐渐增加的数据集上测试了PhaVIP,并与其他工具进行了基准测试。实验结果显示PhaVIP具有优越的性能。在验证了PhaVIP的性能后,我们研究了可以使用PhaVIP的输出的两个应用:噬菌体分类和噬菌体宿主预测。结果表明,使用分类蛋白质而不是所有蛋白质能够带来更好的效果。

作者:Jiayu Shang and Cheng Peng and Xubo Tang and Yanni Sun

论文ID:2301.12422

分类:Genomics

分类简称:q-bio.GN

提交时间:2023-02-01

PDF 下载: 英文版 中文版pdf翻译中