错别字感知的瓶颈预训练用于稳健密集检索

摘要:针对当前密集检索器(DR)在有效处理拼写错误的查询方面存在局限性,该类错误构成商业搜索引擎中查询流量的重要部分。主要问题在于DR使用的预训练的基于语言模型的编码器通常使用干净、精心筹备的文本数据进行训练和微调。而用于训练这些模型的数据中通常不包含拼写错误的查询,因此推理时间观察到的拼写错误的查询与用于训练和微调的数据相比是属于分布之外的。以往解决此问题的工作主要集中在优化细调策略,但它们在处理拼写错误的查询时的有效性仍低于采用独立的最先进拼写检查组件的流程。为了解决这一挑战,我们提出了ToRoDer (TypOs-aware bottlenecked pre-training for RObust DEnse Retrieval),这是一种新颖的DR预训练策略,通过增强DR对拼写错误的查询的鲁棒性,同时保持其在下游检索任务中的有效性。ToRoDer采用编码器-解码器架构,其中编码器将带有屏蔽令牌的拼写错误文本作为输入,并输出给解码器的瓶颈信息。解码器以瓶颈嵌入为输入,以及原始文本中屏蔽了拼写错误令牌的令牌嵌入。预训练任务是为了恢复编码器和解码器的屏蔽令牌。我们进行了大量的实验结果和详细的消融研究,结果显示,使用ToRoDer进行预训练的DR在处理拼写错误的查询时显示出显著更高的有效性,合理地弥补了使用独立复杂的拼写检查器组件的流程的差距,同时保持了它们在拼写正确的查询上的有效性。

作者:Shengyao Zhuang, Linjun Shou, Jian Pei, Ming Gong, Houxing Ren, Guido Zuccon and Daxin Jiang

论文ID:2304.08138

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-04-18

PDF 下载: 英文版 中文版pdf翻译中