实时应用的视频多模态情感识别系统-arXiv论文预印本中文版

实时应用的视频多模态情感识别系统

摘要：使用多模态线索，本文提出了一种能够识别说话者语音水平情感的系统。该系统通过无缝集成多个人工智能模型，首先从原始视频输入中提取和预处理多模态信息。接下来，一个端到端的MER模型按顺序预测说话者的情感水平。此外，用户可以通过实现的界面与系统进行互动展示。

作者：Sun-Kyung Lee, Jong-Hwan Kim

论文ID：2308.14320

分类：Human-Computer Interaction

分类简称：cs.HC

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中