整合Frechet距离和人工智能揭示了SARS-CoV-2的进化轨迹和起源

摘要:通过基于序列比对的系统来研究SARS-CoV-2的进化轨迹和起源面临着挑战。本研究开发了一种新的无序列比对系统,将Fréchet距离(Fr)和人工循环神经网络(RNN)结合起来,用来从超过两百万个基因组序列中定量地揭示SARS-CoV-2的进化轨迹和起源。Fr通过84个基因组特征(包括4个单核苷酸、16个双核苷酸和64个三核苷酸)来衡量一个变种与参考序列之间的进化相似性。RNN通过Fr数据识别进化轨迹。在全球范围内,SARS-CoV-2通过基因组的大规模删除显著增强了其感染能力(tau=-0.64,p_value=1.39e-101),它明显删除了66个特征,而只获得了18个特征。但只有突变的特征如TTA、GCT和CG才会增加其感染潜力。在有机体水平上,突变一个生物标记的变种具有较低的感染潜力,但突变多个标记的变种则会大幅增加其感染能力。貂冠状病毒是SARS-CoV-2最可能的起源,起源轨迹顺序为:貂、猫、老虎、老鼠、仓鼠、狗、狮子、大猩猩、豹子、蝙蝠和穿山甲。综上所述,从貂起源的SARS-CoV-2主要通过删除进化,并突变多个基因位点,引发了COVID-19大流行。

作者:Anyou Wang

论文ID:2110.07696

分类:Other Quantitative Biology

分类简称:q-bio.OT

提交时间:2022-07-20

PDF 下载: 英文版 中文版pdf翻译中