通过深度递归神经网络进行状态推断,改进RNA二级结构预测

摘要:RNA状态推断是确定RNA序列中的核苷酸在RNA次级结构中是成对还是未成对的问题,可以通过不同的机器学习技术来研究。成功地推断RNA序列的状态可以用于为数据导向的RNA次级结构预测生成辅助信息。双向长短期记忆(LSTM)神经网络已成为一种强大的工具,可以建模全局非线性序列依赖关系,并在许多不同的分类问题上实现了最先进的性能。本文提出了一种围绕深度学习方法的RNA次级结构推断的实用方法。来自深度双向LSTM的状态预测用于生成可以通过最近邻热力学模型(NNTM)合并到RNA次级结构预测中的合成SHAPE数据。该方法针对一个多样的16S核糖体RNA测试集生成的预测次级结构相比未定向的最大自由能结构平均更准确25个百分点。这些改进从某些序列几个百分点到其他序列近50个百分点不等。准确性高度依赖于我们的状态推断方法的成功,并且对我们的状态推断和结构推断方法的全局特征进行研究表明,准确性高度依赖于序列与数据集的相似性。本文提出了一种在16S核糖体RNA上经过训练和测试的深度学习状态推断工具。将这些状态预测转化为用于指导NNTM的合成SHAPE数据可以大大提高次级结构预测的准确性,如在一个16S rRNA的测试集上所示。

作者:Devin Willmott and David Murrugarra and Qiang Ye

论文ID:1906.10819

分类:Biomolecules

分类简称:q-bio.BM

提交时间:2020-02-25

PDF 下载: 英文版 中文版pdf翻译中