通过对注意力矩阵进行拓扑分析的方式,估计Transformer模型预测的不确定性
摘要:确定深度学习模型在其预测中的置信度是自然语言处理领域中的一个悬而未决的问题。大多数传统的不确定性估计方法对于文本分类模型来说相当薄弱。我们设定了一个任务,即基于Transformer架构的神经网络获取不确定性估计。这种模型的一个关键特点是注意力机制,它支持神经网络中令牌的隐藏表示之间的信息流。我们使用拓扑数据分析方法探索了内部表示之间形成的关系,并利用它们预测模型的置信度。在本文中,我们提出了一种基于注意力机制的拓扑属性的不确定性估计方法,并与传统方法进行了比较。结果表明,所提出的算法在质量上超越了现有方法,并开辟了注意力机制的新应用领域,但需要选择拓扑特征。
作者:Elizaveta Kostenok, Daniil Cherniavskii, Alexey Zaytsev
论文ID:2308.11295
分类:Machine Learning
分类简称:cs.LG
提交时间:2023-08-23