加权有限状态转录器的三路合成
摘要:加权转换器的组成是许多应用中使用的基本算法,包括用于计算自动机之间的复杂编辑距离,或者用于机器学习中的字符串核函数,或者用于组合语音识别、语音合成或信息提取系统的不同组成部分。我们提出了加权转换器组成的一个推广,即三路组合,当组合超过两个转换器时,它在实际中比标准组合算法要快得多。对于由$T_1$、$T_2$和$T_3$组合得到$T$的三个转换器的最坏情况复杂度,取决于所使用的策略,为$O(|T|_Q d(T_1) d(T_3) + |T|_E)$或$(|T|_Q d(T_2) + |T|_E)$,其中$|\cdot|_Q$表示状态数,$|\cdot|_E$表示转换数,$d(\cdot)$表示最大出度。与常规组合一样,使用完美哈希需要预处理步骤,其期望复杂度与输入转换器的大小呈线性关系。在许多情况下,这种方法在复杂度上明显优于标准组合。我们的算法在实践中还导致组合速度显著提高。此外,标准组合可以作为我们算法的一个特殊情况得到。我们报告了几个实验证明了这种优化。这些理论和实证改进显著提升了已提及的应用性能。
作者:Cyril Allauzen and Mehryar Mohri
论文ID:0802.1465
分类:Computational Complexity
分类简称:cs.CC
提交时间:2008-02-22