大规模地质统计模拟预测的最大似然估计的并行近似

摘要:最大似然估计在估计缺失数据方面是一种重要的统计技术,例如在气候和环境应用中,通常涉及大量不规则间距的数据点。特别是,高斯对数似然函数是默认的模型,它对得出的庞大密集协方差矩阵进行操作。高性能系统的出现,具有先进的计算能力和存储容量,使得仅针对规模较小的气候问题进行了完整模拟,达到了机器精度的精确度。对于高维问题,挑战在于对数似然函数的计算需求,该函数需要${\mathcal O}(n^2)$的存储和${\mathcal O}(n^3)$的操作,在这里n表示给定空间位置的数量。这种代价高昂的计算成本可以通过使用近似技术来降低,这些技术不仅能够实现大规模模拟,而且能够保持空间统计模型的准确性和真实性。在本文中,我们扩展了Exascale GeoStatistics软件框架(即ExaGeoStat)以支持Tile Low-Rank(TLR)近似技术,该技术利用稀疏矩阵的数据稀疏性,通过将非对角瓦片压缩到用户定义的精度阈值。然后可以在这种数据压缩格式上执行底层线性代数运算,从而最终减少最大似然估计和相应的内存占用的算术复杂度。在共享和分布式内存系统上进行基于TLR的计算的性能结果表明,与使用合成和真实数据集(多达2M)进行完整精确度模拟相比,可以实现高达13倍和5倍的加速,并确保足够的预测准确性。

作者:Sameh Abdulah, Hatem Ltaief, Ying Sun, Marc G. Genton, and David E. Keyes

论文ID:1804.09137

分类:Numerical Analysis

分类简称:cs.NA

提交时间:2019-07-25

PDF 下载: 英文版 中文版pdf翻译中