弱标签数据的音频标记联合检测分类模型
摘要:音频标记旨在为音频剪辑分配一个或多个标签。大多数数据集都是弱标记的,这意味着仅知道剪辑的标签,而不知道标签的发生时间。音频剪辑的标记通常基于剪辑中的音频事件,并且不向用户提供事件级别的标签。以前的研究使用了帧包模型假设标签始终存在,这在实践中并非如此。我们提出了一种联合检测-分类(JDC)模型,用于同时检测和分类音频剪辑。JDC模型具有关注信息和忽略无信息声音的能力。然后只使用信息区域进行分类。在“CHiME Home”数据集上的实验结果表明,JDC模型将等误差率(EER)从19.0%降低到16.9%。更有趣的是,音频事件检测器在不需要事件级别标签的情况下成功训练。
作者:Qiuqiang Kong, Yong Xu, Wenwu Wang, Mark Plumbley
论文ID:1610.01797
分类:Sound
分类简称:cs.SD
提交时间:2019-12-10