基因序列的空间建模与合成的新框架
摘要:建立了一个统计模型的框架,用于对人类基因组序列进行建模,从而实现基因序列的合成形式。首先,通过哈夫曼编码将基因组的字母序列转换为十进制序列。然后,使用HP滤波器将该十进制序列分解为趋势和周期两个成分。接下来,采用具有异方差性的ARIMA-GARCH统计模型对趋势成分进行建模,其中自回归综合移动平均(ARIMA)用于捕捉序列的线性特征,广义自回归条件异方差(GARCH)用于捕捉序列的统计非线性特征。这种建模方法根据序列的统计特征来合成给定的基因组序列。最后,使用高斯混合模型估计给定序列的概率密度函数(PDF),并基于估计的PDF确定一个新的PDF,以统计上抵消原始序列。我们的策略在几个基因以及HIV核苷酸序列上进行了实验,并展示了相应的结果。
作者:Salman Mohamadi, Farhang Yeganegi, Hamidreza Amindavar
论文ID:1908.03342
分类:Other Quantitative Biology
分类简称:q-bio.OT
提交时间:2019-08-12