结合面向链特异性直接RNA测序、RNA-seq和ESTs,改进三端非翻译区和复杂位点的注释

摘要:基因组序列的参考标注为后续对基因组的所有分析提供了框架。在解释RNA-seq实验结果时,正确的标注尤为重要,因为短序列读数会被映射到基因组上并根据标注被指派给基因。参考标注与实验系统之间的不一致性可能导致对实验处理或系统突变对RNA表达的影响进行错误解释。直到最近,全基因组范围的3'非翻译区域的标注比编码区域和内含子/外显子边界的标注受到更少关注。本文中,利用Helicos Biosciences的新型单分子、链特异性、直接RNA测序技术在人类、鸡和拟南芥样本中产生的数据,这种技术可以将3'聚腺苷化位点定位到+/- 2个核苷酸以内,并与EST和RNA-Seq数据进行了结合。本文还列举了9个例子,这些例子展示了这些数据的组合可以实现:(1)基因和3'非翻译区的重新注释(包括将一个3'非翻译区扩展了5.9 kb);(2)解析复杂区域中的基因表达;(3)更清晰地解释小RNA表达;(4)鉴定新基因。虽然这里展示的具体例子可能随着基因组序列及其标注的完善而过时,但本文中提出的原则对于进行基因组标注的人员和希望在自己的实验数据背景下解释现有公开可用标注的人员将具有普遍适用性。

作者:Nick Schurch, Christian Cole, Alexander Sherstnev, Junfang Song, C''eline Duc, Kate G. Storey, W. H. Irwin McLean, Sara J. Brown, Gordon G. Simpson, and Geoffrey J. Barton

论文ID:1311.2494

分类:Genomics

分类简称:q-bio.GN

提交时间:2014-05-20

PDF 下载: 英文版 中文版pdf翻译中