EMID: 一个音频-视觉模态下的情感对齐数据集
摘要:情感配对音乐和图像数据集(EMID):一个用于音乐和图像情感匹配的新数据集。该数据集设 计用于促进生成和检索等听觉-视觉交叉模态任务。与现有方法主要关注语义相关性或粗略划分的 情感关系不同,EMID 强调使用先进的13维情感模型在音乐和图像之间建立情感一致性的重要性。通 过在数据集中加入情感对齐,旨在建立与人类感知理解密切相关的配对,从而提高听觉-视觉交叉模态 任务的性能。我们还设计了一个名为EMI-Adapter的补充模块,用于优化现有的交叉模态对齐方法。为 了验证EMID的有效性,我们进行了一项心理实验,实验证明考虑两种模态之间的情感关系在抽象角度上 能够有效提高匹配的准确性。这项研究为未来的跨模态研究(如心理治疗)奠定了基础,并有助于推进 对情感在交叉模态对齐中的理解和利用。EMID数据集可在https://github.com/ecnu-aigc/EMID 下载。
作者:Jialing Zou, Jiahao Mei, Guangze Ye, Tianyu Huai, Qiwei Shen, Daoguo Dong
论文ID:2308.07622
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-16