带有噪声观测的奖励选择-arXiv论文预印本中文版

带有噪声观测的奖励选择

摘要：在不确定性优化中，我们研究了一个基本问题。有 $n$ 个盒子；每个盒子 $i$ 包含一个隐藏的奖励 $x\_i$。奖励是从一个未知的分布 $mathcal{D}$ 中独立同分布地抽取的。对于每个盒子 $i$，我们观察到 $y\_i$，它是其奖励的无偏估计，从一个已知标准差 $sigma\_i$ 的正态分布中抽取（而其均值 $x\_i$ 是未知的）。我们的任务是选择一个盒子，以最大化我们的奖励。这个问题涵盖了很多应用，比如广告竞拍，其中隐藏的奖励是广告的点击率。在这个模型中的先前工作 [BKMR12] 证明了朴素策略（选择估计值最大的盒子）是次优的，并建议使用线性策略（选择 $y\_i - c cdot sigma\_i$ 最大的盒子），其中 $c > 0$。然而，对于这两种策略的性能没有给出任何形式化的保证（例如，它们的期望奖励是否在某种程度上接近最优策略的奖励）。在这项研究中，我们证明了即使在 $mathcal{D}$ 表现良好（例如满足单调风险率（MHR）条件），甚至在“小尾巴”条件下（要求不太多的盒子具有任意大的噪声），朴素策略和线性策略与最优策略相比是任意糟糕的。另一方面，在同样的“小尾巴”条件下，我们提出了一个简单的阈值策略，它在预言家（预言家知道实现值 $x\_1, dots, x\_n$）的奖励下给出了一个常数近似值。我们证明了当不满足这个条件时，即使是最佳的透视策略（了解 $mathcal{D}$）也不能对预言家进行一个常数近似，即我们的阈值策略相对于预言家基准是最优的，最多只有一些常数的差距。

作者：Kamyar Azizzadenesheli, Trung Dang, Aranyak Mehta, Alexandros Psomas, Qian Zhang

论文ID：2307.05953

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2023-07-13

PDF 下载： 英文版中文版pdf翻译中