在非常大的数据集中逼近分位数
摘要:大气科学中经常会遇到非常大的数据集,这些数据集可能是来自于时间和空间上的多个观测点,也可能是来自确定性模型的输出(有时达到了百万吉字节)。由于内存限制或计算能力的限制,有时无法加载一个大型数据向量并对其进行排序。我们展示了一种提出的用于逼近中位数的算法“中值之中位数”的性能较差。相反,我们开发了一种用于逼近非常大数据集的分位数的算法,该算法通过对数据进行分区或使用现有分区(可能大小不等)来进行操作。我们展示了该算法的确定性精度以及如何调整以获得定制的精度。
作者:Reza Hosseini
论文ID:1007.1032
分类:Computation
分类简称:stat.CO
提交时间:2010-07-08