动态文集中的生成式检索的持续学习-arXiv论文预印本中文版

动态文集中的生成式检索的持续学习

摘要：生成检索（GR）是基于参数模型直接预测相关文档标识符（即，docids）的方法。在许多即时检索任务中，它已经取得了可靠的性能。然而，迄今为止，这些任务都假设文档集合是静态的。然而，在许多实际场景中，文档集合是动态的，不断有新的文档添加到语料库中。能够在保留回答先前和新索引相关文档的能力的同时，增量索引新文档对于应用GR模型非常重要。在本文中，我们解决了GR的这个实际的连续学习问题。我们提出了一种新颖的用于生成检索的连续学习模型，称为CLEVER（Continual-LEarner for generatiVE Retrieval），为GR的连续学习做出了两个重大贡献：（i）为了以低计算成本将新文档编码为docids，我们提出了增量乘积量化方法，该方法根据两个自适应阈值更新部分量化码本；（ii）为了在查询时记忆新文档而不忘记先前的知识，我们提出了一种记忆增强学习机制，用于建立旧文档和新文档之间的有意义的连接。实证结果显示了所提模型的有效性和效率。

作者：Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Wei Chen, Yixing Fan, Xueqi Cheng

论文ID：2308.14968

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-08-30

PDF 下载： 英文版中文版pdf翻译中