神经信息检索的广义弱监督-arXiv论文预印本中文版

神经信息检索的广义弱监督

摘要：通过弱监督训练模型（Weakly Supervised Neural Ranking Models）改进信息检索（IR）任务方法，不需手动标记数据的情况下显着提高排名性能。研究提出了一种泛化的弱监督解决方案（Generalized Weak Supervision）通过迭代重新标注过程，实现弱监督模型可以有效提升排名性能。该解决方案有四种实现方法：自标记、交叉标记、联合交叉-自标记和贪婪多标记。此外，根据查询性能预测方法的查询重要性加权机制进一步减少生成的训练数据中的噪音。实验证明，与弱监督相比，GWS的所有实现方法在两个检索基准上均取得了显著的改进。

作者：Yen-Chieh Lien, Hamed Zamani, W. Bruce Croft

论文ID：2304.08912

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-04-19

PDF 下载： 英文版中文版pdf翻译中