基于双树遍历的FMM在众核架构上的应用
摘要:创建最快的多核和异构体系结构的N体库的独立努力集成到了目前的工作中。重点放在低准确性优化上,以响应于最近使用FMM作为稀疏线性求解器的预处理器的兴趣。与其他最先进的快速N体代码的直接比较表明,通过精心选择最佳算法和对代码进行低级优化,可以实现性能的数量级增加。当前的N体求解器使用快速多极方法,通过双树遍历的高效策略来找到单元-单元相互作用的列表。任务为基础的线程模型用于最大限度地发挥线程级并行性和节点内的负载平衡。为了充分发挥最新CPU上的SIMD单元的潜力,使用AVX指令对内部核进行了优化。我们的代码——exaFMM——比当前最先进的FMM代码快一个数量级,而这些代码本身比普通的FMM代码快一个数量级。
作者:Rio Yokota
论文ID:1209.3516
分类:Numerical Analysis
分类简称:cs.NA
提交时间:2012-09-20