流式点击率预测:重新思考面向实际的推荐任务中的流式数据
摘要:流式点击率(CTR)预测任务在工业推荐系统中至关重要,在实际应用中,模型通常部署在动态流式数据上。现实世界的推荐系统面临许多挑战,比如分布偏移、时间非平稳性和系统性偏差,这给训练和利用推荐模型带来了困难。然而,大多数现有的研究将CTR预测视为在静态数据集上的分类任务,假设训练集和测试集是独立且相同分布的(即独立同分布假设)。为了弥合这一差距,我们将流式场景中的CTR预测问题定义为流式CTR预测任务。相应地,我们提出了专用的基准设置和度量标准,以评估和分析流式数据中模型的性能。为了更好地理解与传统CTR预测任务的差异,我们深入探讨可能影响模型性能的因素,如参数比例、归一化、正则化等。结果揭示了“流式学习困境”的存在,即同样的因素在静态和流式场景中对模型性能可能产生不同的影响。基于这些发现,我们提出了两种简单而富有启发性的方法(即调整关键参数和示例重放),显著提高了流式场景下CTR模型的效果。我们希望我们的工作能激发对流式CTR预测的进一步研究,并帮助提高推荐系统的稳健性和适应性。
作者:Qi-Wei Wang, Hongyu Lu, Yu Chen, Da-Wei Zhou, De-Chuan Zhan, Ming Chen, Han-Jia Ye
论文ID:2307.07509
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-07-17