基于课程学习考虑事件学习难度的音频事件检测-arXiv论文预印本中文版

基于课程学习考虑事件学习难度的音频事件检测

摘要：使用传统的声音事件检测（SED）模型，将两种类型的事件，即存在和不存在于声学场景中的事件，视为同一类型的事件。传统的SED方法不能有效地利用这两种类型事件之间的差异。在声学场景中不存在声音事件的所有时间帧很容易被视为无效，即这些事件很容易被训练。而存在于场景中的事件的时间帧必须被分类为有效和无效，即这些事件的训练难度较大。为了充分利用训练的难度，我们将课程学习应用于SED中，即从易到难的事件进行训练。为了利用课程学习，我们提出了一种新的SED目标函数，其中事件从易到难进行训练。实验结果表明，与传统基于二元交叉熵的SED方法相比，所提出方法的F-score提高了10.09个百分点。

作者：Noriyuki Tonami and Keisuke Imoto and Yuki Okamoto and Takahiro Fukumori and Yoichi Yamashita

论文ID：2102.05288

分类：Sound

分类简称：cs.SD

提交时间：2021-02-11

PDF 下载： 英文版中文版pdf翻译中