RSpell:领域自适应中文拼写检查的检索增强框架

摘要:中文拼写检查(CSC)是指在中文文本中检测和纠正拼写错误。在实际应用场景中,使CSC模型具备跨不同领域纠错的能力非常重要。本文提出了一种检索增强的拼写检查框架RSpell,该框架通过搜索相应领域的术语并将其融入CSC模型中来实现。具体来说,我们采用拼音模糊匹配来搜索术语,并将其与输入相结合并输入CSC模型。然后,我们引入了一种自适应的过程控制机制来动态调整外部知识对模型的影响。此外,我们还开发了一种迭代策略来增强RSpell框架的推理能力。我们在法律、医学和公文写作三个领域的CSC数据集上进行了实验。结果表明,RSpell在零射和微调场景下均取得了最先进的性能,证明了检索增强的CSC框架的有效性。我们的代码可在https://github.com/47777777/Rspell上获得。

作者:Siqi Song, Qi Lv, Lei Geng, Ziqiang Cao, and Guohong Fu

论文ID:2308.08176

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中