PEANUT:一种用于注释音频-视觉数据的人工智能协作工具
摘要:音频-视觉学习的目标是通过利用听觉和视觉模态之间的相关性来增强计算机的多模态感知能力。尽管其在视频检索、增强现实/虚拟现实和辅助功能等许多有用的下游任务中表现出色,但现有的音频-视觉模型的性能和应用受到高质量数据集的限制。对音频-视觉数据集进行注释是费时费力的工作。为了解决这一挑战,我们设计和开发了一种高效的音频-视觉注释工具Peanut。Peanut的人工智能协作流程将多模态任务分解为两个单模态任务,并利用先进的目标检测和声音标记模型来减少注解者在处理每一帧和手动注释帧数量上所需要的工作量。一项针对20名参与者的被试研究发现,Peanut可以显著加速音频-视觉数据注释过程,同时保持高注释准确性。
作者:Zheng Zhang, Zheng Ning, Chenliang Xu, Yapeng Tian, Toby Jia-Jun Li
论文ID:2307.15167
分类:Human-Computer Interaction
分类简称:cs.HC
提交时间:2023-07-31