2020年代计算环境下的高性能统计计算
摘要:从统计计算的角度来看,过去十年间的技术进步,不论是硬件还是软件,使得高性能计算(HPC)的使用比以往任何时候都更加容易。我们从统计计算的角度回顾了这些进步。云计算使得超级计算机的使用变得经济实惠。深度学习软件库使得编写统计算法变得简单,并能让用户将代码编写一次,然后在任何地方运行 -- 从笔记本电脑到配备多个图像处理单元(GPUs)的工作站,再到云端的超级计算机。强调了这些发展对于统计学家的好处,我们回顾了近期适用于高维模型且能够利用HPC计算能力的优化算法。我们提供了代码段以演示编程的简易性。我们还提供了一种易于使用的适用于HPC的分布式矩阵数据结构。利用这个数据结构,我们展示了包括大规模正电子发射断层扫描和$ell\_1$-正则化Cox回归在内的各种统计应用。我们的示例可以轻松扩展到配备8个GPU的工作站和云端的720个CPU核心的集群。作为一个示例,我们利用HPC的$ell\_1$-正则化Cox回归方法分析了拥有约200,000个受试者和约500,000个单核苷酸多态性的英国生物银行中2型糖尿病的发病情况。拟合这个包含50万个变量的模型仅需要不到45分钟,并且重新确认了已知的相关性。据我们所知,这是关于在这个规模上对生存结果进行正则化回归的可行性的首次示范。
作者:Seyoon Ko, Hua Zhou, Jin J. Zhou, Joong-Ho Won
论文ID:2001.01916
分类:Computation
分类简称:stat.CO
提交时间:2021-07-19