实时应用的视频多模态情感识别系统

摘要:使用多模态线索,本文提出了一种能够识别说话者语音水平情感的系统。该系统通过无缝集成多个人工智能模型,首先从原始视频输入中提取和预处理多模态信息。接下来,一个端到端的MER模型按顺序预测说话者的情感水平。此外,用户可以通过实现的界面与系统进行互动展示。

作者:Sun-Kyung Lee, Jong-Hwan Kim

论文ID:2308.14320

分类:Human-Computer Interaction

分类简称:cs.HC

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中