L^2R:具有向后兼容表示的一阶检索的终身学习
摘要:针对从大规模文档集合中检索相关文档候选的一阶检索是一项关键任务。尽管现有的检索模型取得了令人印象深刻的性能,但它们主要是在静态数据集上进行研究,忽视了在实际情况下,网络上的数据正在不断增长,并存在潜在的分布漂移。因此,训练在静态旧数据上的检索模型可能不适合新数据,并且不可避免地产生次优结果。本文着重研究一阶检索的终身学习,特别关注新出现的未标记文档的情况,因为相关性标注代价高昂且可能跟不上数据的出现。在这种情况下,我们旨在开发具有两个目标的模型更新方法:(1)有效适应不断出现的未标记数据的演化分布,(2)避免每次更新模型时重新推断所有旧文档的嵌入以有效地更新索引。 我们首先正式化任务,然后提出了一种新颖的终身学习方法用于一阶检索,即L^2R。L^2R采用了典型的记忆机制用于终身学习,并融入了两个关键组件:(1)选择多样的支持负例用于模型训练和记忆更新,以实现有效的模型适应,(2)使用排序对齐目标以确保表示的向后兼容性,从而节省索引重建的成本而不损害模型性能。为了评估,我们从LoTTE和Multi-CPR数据集构建了两个新的基准,以模拟实际检索场景中的文档分布漂移。大量实验证明,L^2R明显优于竞争的终身学习基线模型。
作者:Yinqiong Cai, Keping Bi, Yixing Fan, Jiafeng Guo, Wei Chen, Xueqi Cheng
论文ID:2308.11512
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-08-23