语音信号中宽音素类之间的转换检测

摘要:在语音信号中检测广义语音类之间的转换是一个重要问题,它在里程碑检测和分割等应用中有着一定的应用。提出的分层方法检测到从静音到非静音的转换,高振幅(主要为韵律音)到低振幅(主要为摩擦音/塞音/爆破音)的转换以及反之亦然。从每个带通滤波语音信号帧中选择每对相邻零交叉之间的极值(最小值或最大值)样本的某个子集,这个选择是在第二次经过的阈值之上的。相对于帧的中点(参考点),如果语音信号属于同质段,则第一个和最后一个极大值的位置在该参考点的两侧;否则,这两个位置都位于参考点的左侧或右侧,表明是一个转换帧。在对整个TIMIT数据库进行测试时,检测到的转换帧中有93.6\%在手动标记边界的时间容限内(20毫秒)。对于相同的容限,可准确检测到韵律音、非韵律音和静音类及其相应的起始点,准确度约为83.5\%。在某些方面,这些结果与类似任务的最先进方法一样好,甚至更好一些。

作者:T V Ananthapadmanabha, K V Vijay Girish, A G Ramakrishnan

论文ID:1411.0370

分类:Sound

分类简称:cs.SD

提交时间:2014-11-04

PDF 下载: 英文版 中文版pdf翻译中