语音信号中宽音素类之间的转换检测-arXiv论文预印本中文版

语音信号中宽音素类之间的转换检测

摘要：在语音信号中检测广义语音类之间的转换是一个重要问题，它在里程碑检测和分割等应用中有着一定的应用。提出的分层方法检测到从静音到非静音的转换，高振幅（主要为韵律音）到低振幅（主要为摩擦音/塞音/爆破音）的转换以及反之亦然。从每个带通滤波语音信号帧中选择每对相邻零交叉之间的极值（最小值或最大值）样本的某个子集，这个选择是在第二次经过的阈值之上的。相对于帧的中点（参考点），如果语音信号属于同质段，则第一个和最后一个极大值的位置在该参考点的两侧；否则，这两个位置都位于参考点的左侧或右侧，表明是一个转换帧。在对整个TIMIT数据库进行测试时，检测到的转换帧中有93.6\%在手动标记边界的时间容限内（20毫秒）。对于相同的容限，可准确检测到韵律音、非韵律音和静音类及其相应的起始点，准确度约为83.5\%。在某些方面，这些结果与类似任务的最先进方法一样好，甚至更好一些。

作者：T V Ananthapadmanabha, K V Vijay Girish, A G Ramakrishnan

论文ID：1411.0370

分类：Sound

分类简称：cs.SD

提交时间：2014-11-04

PDF 下载： 英文版中文版pdf翻译中