面向文本的多模态强化网络用于非对齐多模态序列的情感分析-arXiv论文预印本中文版

面向文本的多模态强化网络用于非对齐多模态序列的情感分析

摘要：多模态情感分析（MSA）旨在从文本、视觉和声音模态中挖掘情感信息。以往的研究主要集中在表示学习和特征融合策略上。然而，大多数研究忽视了不同模态语义丰富程度的差异，并以相同的方式对待每个模态。这可能导致强模态被忽视，弱模态被高估。受这些观察的启发，我们提出了一种以文本为导向的模态增强网络（TMRN），专注于在MSA中文本模态的主导地位。具体而言，我们设计了一个文本中心的跨模态注意力（TCCA）模块，以完全交互文本/声音和文本/视觉对，以及一个文本门自注意力（TGSA）模块，指导其他两个模态的自我增强。此外，我们提出了一种自适应融合机制，以决定融合过程涉及的不同模态的比例。最后，我们将特征矩阵合并为向量，得到下游任务的最终表示。实验结果表明，我们的TMRN在两个MSA基准测试上优于现有方法。

作者：Yuxuan Lei, Dingkang Yang, Mingcheng Li, Shunli Wang, Jiawei Chen, Lihua Zhang

论文ID：2307.13205

分类：Multimedia

分类简称：cs.MM

提交时间：2023-07-26

PDF 下载： 英文版中文版pdf翻译中