基于课程学习考虑事件学习难度的音频事件检测
摘要:使用传统的声音事件检测(SED)模型,将两种类型的事件,即存在和不存在于声学场景中的事件,视为同一类型的事件。传统的SED方法不能有效地利用这两种类型事件之间的差异。在声学场景中不存在声音事件的所有时间帧很容易被视为无效,即这些事件很容易被训练。而存在于场景中的事件的时间帧必须被分类为有效和无效,即这些事件的训练难度较大。为了充分利用训练的难度,我们将课程学习应用于SED中,即从易到难的事件进行训练。为了利用课程学习,我们提出了一种新的SED目标函数,其中事件从易到难进行训练。实验结果表明,与传统基于二元交叉熵的SED方法相比,所提出方法的F-score提高了10.09个百分点。
作者:Noriyuki Tonami and Keisuke Imoto and Yuki Okamoto and Takahiro Fukumori and Yoichi Yamashita
论文ID:2102.05288
分类:Sound
分类简称:cs.SD
提交时间:2021-02-11