SpikingBERT:使用隐式微分提炼BERT以训练脉冲语言模型
摘要:大语言模型 (LLMs) 虽然越来越强大,但其神经元和突触数量比人脑少几个数量级。然而,它的操作需要更多的功耗/能量。在这项工作中,我们提出了一种新颖的仿生脉冲语言模型 (LM),旨在通过借鉴大脑中的突触信息流来减少传统 LM 的计算成本。在本文中,我们展示了一个利用神经元在平衡态下的平均脉冲率来训练神经形态的脉冲 LM 的框架,使用隐式微分技术克服了脉冲神经网络 (SNN) 的非可微分问题,而不使用任何类型的替代梯度。脉冲神经元的稳态收敛还使我们能够设计一种脉冲注意机制,这在开发可扩展的脉冲 LM 中至关重要。此外,稳态脉冲神经元的平均脉冲率收敛被用于开发一种基于 ANN-SNN 知识蒸馏的新技术,在这种技术中,我们使用预训练的 BERT 模型作为“教师”来训练我们的“学生”脉冲架构。虽然本文提出的主要架构受到 BERT 的启发,但该技术也可以潜在地应用于不同类型的 LLM。我们的工作是第一个在 GLUE 基准测试中展示一个可操作的脉冲语言模型架构在多个不同任务上的表现的研究。
作者:Malyaban Bal, Abhronil Sengupta
论文ID:2308.10873
分类:Neural and Evolutionary Computing
分类简称:cs.NE
提交时间:2023-08-22