减少共享内存占用,提高张量核心高吞吐量及其灵活的API扩展库

摘要:用于提高Tensor Core使用效率的WMMA API扩展库的评估和性能改进分析

作者:Hiroyuki Ootomo, Rio Yokota

论文ID:2308.15152

分类:Distributed, Parallel, and Cluster Computing

分类简称:cs.DC

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中