时间序列数据的离散化
摘要:数据离散化,也称为分箱,是在计算机科学、统计学以及生物数据分析中经常使用的技术。我们提出了一种将实值数据离散化为有限数量离散值的新方法。该方法的创新之处在于融入了信息论准则和确定最佳值数量的准则。虽然该方法可以用于数据聚类,但其开发的动机是需要一种离散化算法来处理多变量时间序列的异构数据,如转录、蛋白质和代谢物浓度测量。由于生物化学网络的几种建模方法采用离散变量状态,因此该方法需要保留变量之间的相关性以及时间序列的动态特征。算法的C++实现可从作者的网站http://polymath.vbi.vt.edu/discretization获取。
作者:Elena S. Dimitrova, John J. McGee, Reinhard C. Laubenbacher
论文ID:q-bio/0505028
分类:Other Quantitative Biology
分类简称:q-bio.OT
提交时间:2007-05-23