利用人工智能方法确定非编码DNA序列是否处于复杂的互动关系

摘要:人类基因组的非蛋白编码区域包含许多调控细胞活动的复杂模式。对人类基因组的研究受限于对其特征及其复杂相互作用的理解不足。然而,人工智能研究的最新进展使得能够使用深度神经网络在没有特征工程的情况下自动学习高维复杂数据的表示。因此,在本文中,我们证明了卷积神经网络可以学习DNA序列的一种表示,而不需要指定任何基序或模式,从而能够预测一个DNA序列是自然的还是人工的。经过训练的模型可以在2个碱基对(bp)、10个bp、50个bp甚至100个bp长度的打乱和真实DNA序列之间进行区分,并且其准确度显著高于线性支持向量机。通过这项研究,我们发现非蛋白编码DNA的区域在长至100 bp以上的距离上可能存在有意义的相互作用,尽管它们不编码蛋白质。

作者:Kerim Arioglu, Umut Eser

论文ID:1708.04019

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-08-15

PDF 下载: 英文版 中文版pdf翻译中