EMID: 一个音频-视觉模态下的情感对齐数据集-arXiv论文预印本中文版

EMID: 一个音频-视觉模态下的情感对齐数据集

摘要：情感配对音乐和图像数据集（EMID）：一个用于音乐和图像情感匹配的新数据集。该数据集设计用于促进生成和检索等听觉-视觉交叉模态任务。与现有方法主要关注语义相关性或粗略划分的情感关系不同，EMID 强调使用先进的13维情感模型在音乐和图像之间建立情感一致性的重要性。通过在数据集中加入情感对齐，旨在建立与人类感知理解密切相关的配对，从而提高听觉-视觉交叉模态任务的性能。我们还设计了一个名为EMI-Adapter的补充模块，用于优化现有的交叉模态对齐方法。为了验证EMID的有效性，我们进行了一项心理实验，实验证明考虑两种模态之间的情感关系在抽象角度上能够有效提高匹配的准确性。这项研究为未来的跨模态研究（如心理治疗）奠定了基础，并有助于推进对情感在交叉模态对齐中的理解和利用。EMID数据集可在https://github.com/ecnu-aigc/EMID 下载。

作者：Jialing Zou, Jiahao Mei, Guangze Ye, Tianyu Huai, Qiwei Shen, Daoguo Dong

论文ID：2308.07622

分类：Multimedia

分类简称：cs.MM

提交时间：2023-08-16

PDF 下载： 英文版中文版pdf翻译中