FPGA上用于高吞吐量机器学习推理的PCIe流处理经验
摘要:在减少企业运营成本方面,实现最大可能的推理速率与最少的硬件资源起着重要作用。在本文中,我们探讨了在基于FPGA的平台上使用PCIe流传输实现高吞吐量。PCIe流式传输是一种在FPGA上独特的能力,可以消除内存复制开销。我们在在线零售推荐中展示了基于梯度提升树模型的推理结果。我们将与GPU和CPU平台上的流行库实现的结果进行了比较,并观察到PCIe流传输启用的FPGA实现取得了最好的整体性能。我们还对所有平台的功耗进行了测量,并发现PCIe流传输在能效方面比CPU和GPU平台的实现分别提高了25倍和12倍。我们讨论了在FPGA上实现这种加速所需的条件。此外,我们还分析了GPU和FPGA的运行时统计数据,并确定了在两个平台上提升性能的机会。
作者:Piyush Manavar, Manoj Nambiar, Nupur Sumeet, Rekha Singhal, Sharod Choudhary, Amey Pandit
论文ID:2110.11719
分类:Performance
分类简称:cs.PF
提交时间:2021-10-25