ReLU和基于加法的门控循环神经网络-arXiv论文预印本中文版

ReLU和基于加法的门控循环神经网络

摘要：用加法和ReLU激活函数代替传统循环门的乘法和sigmoid函数。这种机制旨在以较低的计算成本维持序列处理的长期记忆，从而为受限硬件上更高效的执行或更大的模型打开可能。循环神经网络（RNN）具有像LSTM和GRU这样的门控机制，由于能够捕捉长期依赖关系，它们在从序列数据中学习方面取得了广泛成功。传统上，基于当前输入和先前状态历史的更新分别与动态权重相乘，并组合以计算下一个状态。然而，乘法在某些硬件架构或同态加密等替代算法系统中计算成本可能很高。实验证明，这种新颖的门控机制可以对标准的合成序列学习任务捕捉长期依赖关系，同时显著降低计算成本，使CPU上的执行时间减少一半，并在加密情况下减少三分之一。此外，对手写文本识别任务的实验结果还表明，所提出的体系结构可以训练出与传统的GRU和LSTM基准相当的准确性。本文介绍的门控机制可以通过避免对加密变量进行乘法来支持在同态加密下进行隐私保护的人工智能应用。它还可以支持在（未加密的）明文应用中进行量化，由于基于加法的表达式可以避免乘法通常需要的双精度扩展，因此可能获得相当大的性能提升。

作者：Rickard Br"annvall, Henrik Forsgren, Fredrik Sandin and Marcus Liwicki

论文ID：2308.05629

分类：Machine Learning

分类简称：cs.LG

提交时间：2023-08-11

PDF 下载： 英文版中文版pdf翻译中