快速 SAR:一种统一的搜索与推荐数据集

摘要:搜索和推荐(S&R)服务的融合对于电子商务和视频平台等在线服务至关重要。S&R建模的集成是业界从业者采用的一种非常直观的方法。然而,在学术界这个领域几乎没有进行过研究,主要是因为缺乏公开可用的数据集。因此,在使用来自S&R服务的用户行为数据进行共同优化的研究方面,学术界和业界之间存在着实质性的差距。为了弥合这个差距,我们介绍了第一个大规模的真实世界数据集KuaiSAR,该数据集收集了来自快手这个中国领先的短视频应用的集成搜索和推荐行为,该应用每日活跃用户超过3.5亿。在这个领域的以往研究主要使用公开可用的半合成数据集和模拟数据集,其中包括人工制造的搜索行为。与以往的数据集不同,KuaiSAR包含了真实的用户行为,包括在搜索或推荐服务中的每个交互的发生以及用户在两个服务之间的转换。这项工作有助于S&R的联合建模,并利用搜索数据进行推荐系统(以及利用推荐数据进行搜索引擎)。此外,由于用户与视频交互的各种反馈标签,KuaiSAR还支持广泛的任务,包括意图推荐、多任务学习和长序贯多行为模式建模。我们相信,这个数据集将成为创新研究的催化剂,并弥合学术界和业界在理解实际的S&R服务应用方面的差距。

作者:Zhongxiang Sun and Zihua Si and Xiaoxue Zang and Dewei Leng and Yanan Niu and Yang Song and Xiao Zhang and Jun Xu

论文ID:2306.07705

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-08-15

PDF 下载: 英文版 中文版pdf翻译中