推荐系统离线评估中数据泄漏的关键研究

摘要:推荐模型的评估很难,特别是在离线环境下。在本文中,我们对推荐系统离线评估中的数据泄漏问题进行了全面而批判性的分析。数据泄漏是由于在评估推荐系统时没有观察到全局时间线,例如,训练/测试数据的划分不遵循全局时间线。因此,模型会从在预测时不应该可用的用户-项目交互中进行学习。我们首先展示了全局时间线上的用户-项目交互的时间动态,然后解释了协同过滤模型存在的数据泄漏问题。通过精心设计的实验,我们展示了所有模型确实推荐了预测时间点上不可用的未来项目,这是由于数据泄漏的结果。实验使用了四个广泛使用的基线模型 - BPR、NeuMF、SASRec和LightGCN,在四个流行的离线数据集 - MovieLens-25M、Yelp、Amazon-music和Amazon-electronic上进行,采用了留一法数据划分。我们进一步展示了数据泄漏确实会影响模型的推荐准确性。因此,在训练中泄漏不同量的未来数据时,它们的相对性能顺序变得不可预测。为了在离线环境中以一种真实的方式评估推荐系统,我们提出了一个时间线计划,这需要重新考虑推荐模型的设计。

作者:Yitong Ji, Aixin Sun, Jie Zhang, Chenliang Li

论文ID:2010.11060

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-07

PDF 下载: 英文版 中文版pdf翻译中