弱标签数据的音频标记联合检测分类模型-arXiv论文预印本中文版

弱标签数据的音频标记联合检测分类模型

摘要：音频标记旨在为音频剪辑分配一个或多个标签。大多数数据集都是弱标记的，这意味着仅知道剪辑的标签，而不知道标签的发生时间。音频剪辑的标记通常基于剪辑中的音频事件，并且不向用户提供事件级别的标签。以前的研究使用了帧包模型假设标签始终存在，这在实践中并非如此。我们提出了一种联合检测-分类（JDC）模型，用于同时检测和分类音频剪辑。JDC模型具有关注信息和忽略无信息声音的能力。然后只使用信息区域进行分类。在“CHiME Home”数据集上的实验结果表明，JDC模型将等误差率（EER）从19.0％降低到16.9％。更有趣的是，音频事件检测器在不需要事件级别标签的情况下成功训练。

作者：Qiuqiang Kong, Yong Xu, Wenwu Wang, Mark Plumbley

论文ID：1610.01797

分类：Sound

分类简称：cs.SD

提交时间：2019-12-10

PDF 下载： 英文版中文版pdf翻译中