基于深度卷积递归模型的弱监督音频标记的注意力与定位

摘要:音频标记旨在对音频块进行多标签分类,在2016年声学场景和事件检测与分类(DCASE 2016)挑战中提出。该任务鼓励研究努力,以更好地分析和理解网络上的大量音频数据内容。音频标记的困难在于它只有块级标签,没有帧级标签。本文提出了一种弱监督方法,不仅可以预测标签,还可以指示发生的声学事件的时间位置。注意机制被发现在识别重要帧时有效,同时忽略无关帧。所提出的框架是一个带有两个辅助模块的深度卷积循环模型:注意力模块和定位模块。这个提出的算法在DCASE 2016挑战的任务4上进行了评估。与卷积循环基准系统相比,评估集上的平均错误率(EER)从0.13降低到0.11,达到了最先进的性能。

作者:Yong Xu, Qiuqiang Kong, Qiang Huang, Wenwu Wang, Mark D. Plumbley

论文ID:1703.06052

分类:Sound

分类简称:cs.SD

提交时间:2017-03-20

PDF 下载: 英文版 中文版pdf翻译中