动态文集中的生成式检索的持续学习

摘要:生成检索(GR)是基于参数模型直接预测相关文档标识符(即,docids)的方法。在许多即时检索任务中,它已经取得了可靠的性能。然而,迄今为止,这些任务都假设文档集合是静态的。然而,在许多实际场景中,文档集合是动态的,不断有新的文档添加到语料库中。能够在保留回答先前和新索引相关文档的能力的同时,增量索引新文档对于应用GR模型非常重要。在本文中,我们解决了GR的这个实际的连续学习问题。我们提出了一种新颖的用于生成检索的连续学习模型,称为CLEVER(Continual-LEarner for generatiVE Retrieval),为GR的连续学习做出了两个重大贡献:(i)为了以低计算成本将新文档编码为docids,我们提出了增量乘积量化方法,该方法根据两个自适应阈值更新部分量化码本;(ii)为了在查询时记忆新文档而不忘记先前的知识,我们提出了一种记忆增强学习机制,用于建立旧文档和新文档之间的有意义的连接。实证结果显示了所提模型的有效性和效率。

作者:Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Wei Chen, Yixing Fan, Xueqi Cheng

论文ID:2308.14968

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-30

PDF 下载: 英文版 中文版pdf翻译中