改进稀疏且偏斜数据集下的位置偏差估计:基于物品嵌入

摘要:在学习排名(Learning to rank,L2R)中,估计位置偏差是一个众所周知的挑战。电子商务应用中的点击数据(例如广告定位和搜索引擎)提供了隐式但丰富的反馈,可以改善个性化排名。然而,点击数据本质上包含各种偏差,如位置偏差。点击建模旨在去除点击数据中的偏差并提取可靠的信号。结果随机化算法和回归期望最大化算法已被提出来解决位置偏差问题。但是,这两种方法都需要各种观测对(项目,位置)。然而,在实际的广告案例中,营销人员经常按照固定的预先确定的顺序显示广告,这给估计带来了困难。我们将(项目,位置)的稀疏性问题作为位置偏差估计的一个新问题,并提出了一种利用项目嵌入来减轻稀疏性问题的回归EM算法的变体。首先,我们使用合成数据集评估位置偏差估计在日志数据集的稀疏性和偏斜性方面的问题。接下来,我们使用一个真实数据集经验性地展示了使用潜在语义索引(LSI)和变分自编码器(VAE)的项目嵌入如何改善位置偏差估计。我们的结果显示,使用VAE的回归EM算法相对地改善了均方根误差(RMSE)10.3%,而使用LSI的EM算法相对地改善了RMSE 33.4%。

作者:Shion Ishikawa, Yun Ching Liu, Young-Joo Chung, Yu Hirate

论文ID:2305.13931

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-05-24

PDF 下载: 英文版 中文版pdf翻译中