使用伪相关反馈改进稠密检索的查询表示：一项可重现性研究-arXiv论文预印本中文版

使用伪相关反馈改进稠密检索的查询表示：一项可重现性研究

摘要：基于密集检索器的伪相关反馈（PRF）利用第一轮检索中来自前k个段落的相关信号来进行第二轮检索，旨在提高搜索效果。最近的研究方向是针对基于深度语言模型的排名器的PRF方法的研究和开发，特别是在密集检索器的背景下。与更复杂的神经排名器相比，密集检索器在效果方面提供了一个权衡，效果通常较复杂的神经排名器降低，而查询延迟也降低，从而使检索流程更高效。引入PRF方法用于密集检索器的目的是进一步提高其效果。在本文中，我们复现和研究了一种最近用于密集检索器的PRF方法，称为ANCE-PRF。该方法将查询文本和前k个反馈段落的文本连接起来形成一个新的查询输入，然后使用基于原始密集检索器训练的新查询编码器将其编码为密集表示。虽然该方法潜在地可以应用于任何现有的密集检索器，但之前的研究只在ANCE密集检索器的背景下进行了研究。我们研究了ANCE-PRF在训练（对PRF信号进行编码）和推断（排名）步骤方面的可重复性。我们进一步扩展了原始工作提供的实证分析，以研究训练过程中控制超参数的影响以及在不同设置下该方法的鲁棒性。最后，我们对将ANC之外的密集检索器用于第一轮检索和编码PRF信号时，ANCE-PRF方法的普适性进行了研究。

作者：Hang Li and Shengyao Zhuang and Ahmed Mourad and Xueguang Ma and Jimmy Lin and Guido Zuccon

论文ID：2112.06400

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-03-22

PDF 下载： 英文版中文版pdf翻译中