使用计算内存进行深度神经网络的混合精度训练

摘要:深度神经网络通过在解决图像和语音识别等许多现实世界问题中提供前所未有的类人表现,彻底改变了机器学习领域。然而,训练大型深度神经网络是一项计算密集型的任务,这需要开发针对这种应用的新型计算架构。计算内存单元可以使用阻性存储器设备组织在交叉栅阵列中,以在其导电状态中局部存储突触权重。可以使用 Kirchhoff 电路定律以一种非冯诺依曼方式在原地执行昂贵的乘积累加运算。然而,一个关键挑战是在权重更新过程中无法可靠地改变设备的导电状态。我们提出了一种混合精度架构,它将存储突触权重的计算内存单元与数字处理单元和另一个存储单元相结合,以高精度累积权重更新。新的架构提供了与浮点实现相当的分类准确性,而不受新型阻性存储器的权重更新特性的挑战的限制。一个使用非线性随机相变存储设备模型实现计算内存单元的两层神经网络在 MNIST手写数字分类问题上获得了97.40\% 的测试准确率。

作者:Nandakumar S. R., Manuel Le Gallo, Irem Boybat, Bipin Rajendran, Abu Sebastian, Evangelos Eleftheriou

论文ID:1712.01192

分类:Emerging Technologies

分类简称:cs.ET

提交时间:2017-12-05

PDF 下载: 英文版 中文版pdf翻译中