扩展MadFlow:设备特定优化
摘要:硬件加速代码开发中自上而下的方法有一些优势 我们从一个自动生成的硬件无关的Monte Carlo生成器开始,该生成器在事件轴上并行化。 即使我们无法控制计算将在其中运行的硬件(即外部群集),我们也可以利用Monte Carlo积分的可并行性质。 这种实现的通用性可能会引入虚假瓶颈或开销。幸运的是,这些瓶颈通常局限于一部分操作,而不是整个向量化程序。 通过识别计算的更关键部分,可以获得非常高效的代码,并同时将需要编写的特定硬件代码的数量最小化。 我们展示了基准测试结果,演示了仅减少计算的内存占用可以提高2至4个进程的性能。
作者:Stefano Carrazza, Juan M. Cruz-Martinez, Gabriele Palazzo
论文ID:2211.14056
分类:Computational Physics
分类简称:physics.comp-ph
提交时间:2022-11-28