无注释数据的可解释性RNA基础模型用于高度准确的RNA结构和功能预测

摘要:非编码RNA结构和功能对于理解细胞信号传导、基因表达和转录后调控等各种生物过程至关重要。这些都是RNA领域的核心问题。随着测序技术的快速发展,我们积累了大量未注释的RNA序列。另一方面,昂贵的实验观测结果只能提供有限的注释数据和三维结构。因此,设计用于预测其结构和功能的计算方法仍然具有挑战性。缺乏注释数据和系统研究导致性能不佳。为解决这个问题,我们提出了一种新的RNA基础模型(RNA-FM),通过自我监督学习利用所有的2300万非编码RNA序列。在这个方法中,我们发现预训练的RNA-FM可以推断非编码RNA的顺序和进化信息,而无需使用任何标签。此外,我们通过将RNA-FM应用于下游的二级/三维结构预测、SARS-CoV-2基因组结构和进化预测、蛋白质-RNA结合偏好建模和基因表达调控建模来验证RNA-FM的有效性。综合实验证明,所提出的方法显著且一致地改善了RNA结构和功能建模结果。尽管只使用未标记的数据进行训练,RNA-FM可以作为该领域的基础模型。

作者:Jiayang Chen, Zhihang Hu, Siqi Sun, Qingxiong Tan, Yixuan Wang, Qinze Yu, Licheng Zong, Liang Hong, Jin Xiao, Tao Shen, Irwin King, Yu Li

论文ID:2204.00300

分类:Quantitative Methods

分类简称:q-bio.QM

提交时间:2022-08-09

PDF 下载: 英文版 中文版pdf翻译中