关于检索模型中地区拼写约定的影响

摘要:神经排名模型的一个优点是它们在同义词情况下通常具有良好的泛化能力,即两个单词具有相似或相同的意思。在本文中,我们研究并 quantif其各种排名模型在明确的同义词情况下的表现:即由于拼写习惯的区域差异(例如,color vs colour)导致单词以不同的表面形式表达。我们首先探索用于神经检索方法的预训练、训练和评估的数据集中美式和英式英语拼写习惯的普遍程度,发现美式拼写习惯更为普遍。尽管训练数据存在这些偏差,我们发现在这种同义词情况下,检索模型通常具有良好的泛化能力。我们探讨了文件拼写规范化在检索中的影响,并观察到所有模型都受到文件拼写规范化的影响。当文件被规范化为与查询不同的拼写习惯时,它们都会出现性能下降;当文件被规范化为与查询相同的拼写习惯时,我们观察到不同的行为:词汇模型显示出改进,密集检索器不受影响,而重新排名器表现出矛盾的行为。

作者:Andreas Chari, Sean MacAvaney, Iadh Ounis

论文ID:2308.00480

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-02

PDF 下载: 英文版 中文版pdf翻译中