COVID-19的多波次变异模式通过机器学习分析刺突蛋白突变
摘要:使用机器学习方法对冠状病毒的尖峰蛋白序列的时间变异性进行研究,能够帮助我们识别、分类和跟踪新出现的病毒变体。我们的分析是无偏的,因为不需要任何关于变体特征的先前知识,而且我们的结果已通过其他基于完整基因组定义变体的方法进行验证。此外,通过将我们方法中的持续变体与流行病学数据进行相关性分析,我们发现每一次COVID-19流行病的新浪潮都是由新的新兴变体推动和主导的。因此,我们的结果对于进一步研究SARS-CoV-2的演变以及预测决定当前和未来尖峰蛋白突变的演化模式,以及它们在病毒传播过程中的多样性和持续性至关重要。此外,我们的机器学习算法可作为一种高效的早期预警系统,用于警示可能会引发新一轮COVID-19流行的新持续性变体的出现。我们的机器学习策略能够在变体仅占新序列的1%时及时识别潜在的新流行病威胁,对决策者制定短期和长期的遏制未来爆发的策略至关重要。如果有足够的测序数据,相同的方法也可以用于其他病毒性疾病,包括流感。
作者:Adele de Hoffer, Shahram Vatani, Corentin Cot, Giacomo Cacciapaglia, Maria Luisa Chiusano, Andrea Cimarelli, Francesco Conventi, Antonio Giannini, Stefan Hohenegger and Francesco Sannino
论文ID:2107.10115
分类:Genomics
分类简称:q-bio.GN
提交时间:2021-10-25