在组织特异序列中寻找序列特征

摘要:发现基因表达下的模式是一项具有挑战性的工作。其中一些模式是已知的转录因子,但序列检查常常提供有价值的线索,甚至发现在基因表达中具有未经表征功能的新颖模式。结合组织特异性基因表达的复杂性,有几个模式被认为是负责特定细胞类型表达的。这对理解基础生物学过程,如发育和疾病进展具有重要意义。在这项工作中,我们提出了一种对模式(不一定是转录因子位点)的原则选择方法,并研究了其在当前生物信息学研究中的应用于若干问题。 这项工作有两个主要贡献:首先,我们引入了一种新的选择变量的度量标准,其次,我们研究了寻找与组织特异性基因表达相关的特定序列模式的问题。结合SVM分类器,我们发现了这些模式,并发现了几个尚未与任何特定功能角色(例如:结合转录因子位点(TFBS)的模式)相关联的新模式。我们假设发现这些模式将能够对基因组范围研究中鉴定的任何保守序列元素的组织特异性调控潜力进行大规模研究。 最后,我们提出这个开发的框架的效用不仅在于帮助发现有区别的模式,而且还可以研究任何选择的模式在基因群的共调控或共表达中的作用。

作者:Arvind Rao, Alfred O.Hero III, David J. States, James Douglas Engel

论文ID:q-bio/0702022

分类:Genomics

分类简称:q-bio.GN

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中