带有噪声观测的奖励选择

摘要:在不确定性优化中,我们研究了一个基本问题。有 $n$ 个盒子;每个盒子 $i$ 包含一个隐藏的奖励 $x\_i$。奖励是从一个未知的分布 $mathcal{D}$ 中独立同分布地抽取的。对于每个盒子 $i$,我们观察到 $y\_i$,它是其奖励的无偏估计,从一个已知标准差 $sigma\_i$ 的正态分布中抽取(而其均值 $x\_i$ 是未知的)。我们的任务是选择一个盒子,以最大化我们的奖励。这个问题涵盖了很多应用,比如广告竞拍,其中隐藏的奖励是广告的点击率。在这个模型中的先前工作 [BKMR12] 证明了朴素策略(选择估计值最大的盒子)是次优的,并建议使用线性策略(选择 $y\_i - c cdot sigma\_i$ 最大的盒子),其中 $c > 0$。然而,对于这两种策略的性能没有给出任何形式化的保证(例如,它们的期望奖励是否在某种程度上接近最优策略的奖励)。 在这项研究中,我们证明了即使在 $mathcal{D}$ 表现良好(例如满足单调风险率(MHR)条件),甚至在“小尾巴”条件下(要求不太多的盒子具有任意大的噪声),朴素策略和线性策略与最优策略相比是任意糟糕的。另一方面,在同样的“小尾巴”条件下,我们提出了一个简单的阈值策略,它在预言家(预言家知道实现值 $x\_1, dots, x\_n$)的奖励下给出了一个常数近似值。我们证明了当不满足这个条件时,即使是最佳的透视策略(了解 $mathcal{D}$)也不能对预言家进行一个常数近似,即我们的阈值策略相对于预言家基准是最优的,最多只有一些常数的差距。

作者:Kamyar Azizzadenesheli, Trung Dang, Aranyak Mehta, Alexandros Psomas, Qian Zhang

论文ID:2307.05953

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-07-13

PDF 下载: 英文版 中文版pdf翻译中