偏差项在点积注意力中的作用
摘要:注意力模块是当代神经网络模型(特别是transformers)的核心模块,并在自然语言处理和计算机视觉等许多领域得到应用。该注意力模块由三个线性变换组成,即查询、键和值的线性变换,每个线性变换都有一个偏置项。在本文中,我们研究了这些偏置项的作用,并数学上证明了键线性变换的偏置项是多余的,可以在不影响注意力模块的情况下省略。此外,我们认为值线性变换的偏置项比查询线性变换的偏置项更重要。通过对语言建模、自然语言理解和自然语言生成任务的多个实验证明了这些发现。
作者:Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tur
论文ID:2302.08626
分类:Neural and Evolutionary Computing
分类简称:cs.NE
提交时间:2023-02-20