面向文本的多模态强化网络用于非对齐多模态序列的情感分析

摘要:多模态情感分析(MSA)旨在从文本、视觉和声音模态中挖掘情感信息。以往的研究主要集中在表示学习和特征融合策略上。然而,大多数研究忽视了不同模态语义丰富程度的差异,并以相同的方式对待每个模态。这可能导致强模态被忽视,弱模态被高估。受这些观察的启发,我们提出了一种以文本为导向的模态增强网络(TMRN),专注于在MSA中文本模态的主导地位。具体而言,我们设计了一个文本中心的跨模态注意力(TCCA)模块,以完全交互文本/声音和文本/视觉对,以及一个文本门自注意力(TGSA)模块,指导其他两个模态的自我增强。此外,我们提出了一种自适应融合机制,以决定融合过程涉及的不同模态的比例。最后,我们将特征矩阵合并为向量,得到下游任务的最终表示。实验结果表明,我们的TMRN在两个MSA基准测试上优于现有方法。

作者:Yuxuan Lei, Dingkang Yang, Mingcheng Li, Shunli Wang, Jiawei Chen, Lihua Zhang

论文ID:2307.13205

分类:Multimedia

分类简称:cs.MM

提交时间:2023-07-26

PDF 下载: 英文版 中文版pdf翻译中