基于深度卷积递归模型的弱监督音频标记的注意力与定位-arXiv论文预印本中文版

基于深度卷积递归模型的弱监督音频标记的注意力与定位

摘要：音频标记旨在对音频块进行多标签分类，在2016年声学场景和事件检测与分类（DCASE 2016）挑战中提出。该任务鼓励研究努力，以更好地分析和理解网络上的大量音频数据内容。音频标记的困难在于它只有块级标签，没有帧级标签。本文提出了一种弱监督方法，不仅可以预测标签，还可以指示发生的声学事件的时间位置。注意机制被发现在识别重要帧时有效，同时忽略无关帧。所提出的框架是一个带有两个辅助模块的深度卷积循环模型：注意力模块和定位模块。这个提出的算法在DCASE 2016挑战的任务4上进行了评估。与卷积循环基准系统相比，评估集上的平均错误率（EER）从0.13降低到0.11，达到了最先进的性能。

作者：Yong Xu, Qiuqiang Kong, Qiang Huang, Wenwu Wang, Mark D. Plumbley

论文ID：1703.06052

分类：Sound

分类简称：cs.SD

提交时间：2017-03-20

PDF 下载： 英文版中文版pdf翻译中