广播节目的流派识别中用于背景追踪的声学特征

摘要:基于音频录音中背景环境的特征提取的新方法 摘要:本文提出了一种新的方法,用于提取音频录音中表征背景环境的声学特征。这些特征基于将多个并行的基于背景约束最大似然线性回归转换异步地安装到输入音频信号的对齐输出。通过这种设置,得到的特征可以独立于音频前景中的说话者,追踪音频背景的变化,如音乐、鼓掌或笑声的出现和消失。在音频视觉数据中提供这种类型的声学描述具有许多潜在应用,包括自动分类广播档案或改善自动转录和字幕。本文探讨了这些特征在一组332个BBC节目的流派识别任务中的性能。所提出的背景追踪特征在使用高斯混合模型分类器(准确率为62%对72%)的任务中优于短期感知线性预测特征。使用更复杂的分类器,如隐马尔可夫模型和支持向量机,将系统的性能与新颖的背景跟踪特征提高到79%和81%的准确率。

作者:Oscar Saz, Mortaza Doulaty, Thomas Hain

论文ID:1509.04934

分类:Sound

分类简称:cs.SD

提交时间:2016-11-17

PDF 下载: 英文版 中文版pdf翻译中