信息导向的采样和具有异方差噪声的赌博机问题
摘要:具有异方差噪声的赌博机问题中,目标是通过一系列嘈杂的评估来最大化一个未知函数。通常,观测误差被假设为独立于评估点,并且在整个范围内满足尾部界限;这对许多应用来说是一种限制性的假设。在这项工作中,我们考虑具有异方差噪声的赌博机,在这里我们明确允许噪声分布依赖于评估点。我们证明了这导致了信息和遗憾的新的权衡,而这些权衡并未考虑到现有方法(如上界置信度算法(UCB)或汤普森抽样)。为了解决这些缺点,我们引入了一个频率遗憾分析框架,该框架类似于Russo和Van Roy(2014)的贝叶斯框架,并且我们证明了一个新的高概率遗憾界限,适用于一般的、可能是随机的策略,它依赖于一个我们称之为遗憾信息比的数量。根据这个界限,我们定义了信息导向抽样(IDS)的一个频率版本,以减小所有可能的动作抽样分布上的遗憾信息比。这进一步依赖于在线最小二乘回归在可分Hilbert空间中的收敛性不等式,我们将其推广到异方差噪声的情况。然后,我们针对线性和再生核Hilbert空间响应函数制定了IDS的几种变体,得到了用于贝叶斯优化的新算法。我们还证明了频率遗憾界限,在同方差的情况下恢复了UCB的已知界限,但在异方差噪声的情况下可能更好。从实证上看,我们在具有异方差噪声的线性设置中的实验证明,我们的某些方法可以优于UCB和汤普森抽样,在噪声为同方差时保持竞争力。
作者:Johannes Kirschner, Andreas Krause
论文ID:1801.09667
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-04-20