扩展MadFlow:设备特定优化

摘要:硬件加速代码开发中自上而下的方法有一些优势 我们从一个自动生成的硬件无关的Monte Carlo生成器开始,该生成器在事件轴上并行化。 即使我们无法控制计算将在其中运行的硬件(即外部群集),我们也可以利用Monte Carlo积分的可并行性质。 这种实现的通用性可能会引入虚假瓶颈或开销。幸运的是,这些瓶颈通常局限于一部分操作,而不是整个向量化程序。 通过识别计算的更关键部分,可以获得非常高效的代码,并同时将需要编写的特定硬件代码的数量最小化。 我们展示了基准测试结果,演示了仅减少计算的内存占用可以提高2至4个进程的性能。

作者:Stefano Carrazza, Juan M. Cruz-Martinez, Gabriele Palazzo

论文ID:2211.14056

分类:Computational Physics

分类简称:physics.comp-ph

提交时间:2022-11-28

PDF 下载: 英文版 中文版pdf翻译中