RLTP:预加载广告中延迟印象建模的强化学习
摘要:提高品牌知名度,许多广告商与广告平台签订合同购买流量,然后向目标受众发布广告。在整个投放期间,广告商通常希望广告获得一定的展示次数,并且希望投放表现尽可能好(例如,获得高点击率)。广告平台采用平衡算法来通过实时调整流量请求的选择概率来满足需求。然而,发布者的策略也会影响投放过程,而广告平台无法控制这些策略。预加载是许多类型广告(例如视频广告)常用的策略,可以确保流量请求后显示的反应时间合法,这导致了延迟出现的现象。传统的平衡算法无法很好处理预加载的特性,因为它们依赖即时的反馈信号,并且可能无法保证广告商的需求。本文针对预加载广告的展示平衡问题提出了一种新的研究方法,即强化学习平衡框架(RLTP)。该框架学习一个平衡机构,在整个投放期间按顺序产生选择概率。为了同时优化展示次数和投放表现这两个目标,RLTP采用定制的奖励估计器满足保证的展示次数,惩罚超过的展示次数并最大化流量价值。大规模工业数据集上的实验证实了RLTP在基准平衡算法上的明显优势。我们已经将RLTP框架在线部署到我们的广告平台上,并且结果显示它在投放完成率和点击率等核心指标上取得了显著的提升。
作者:Penghui Wei, Yongqiang Chen, Shaoguo Liu, Liang Wang, Bo Zheng
论文ID:2302.02592
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-06-16