遗憾的下限与扩展的上界置信区间策略在随机多臂赌博机问题中

摘要:遗憾下界在经典的随机多臂赌博机模型中的研究。莱和罗宾斯的著名结果,已被Burnetas和Katehakis扩展,建立了所有一致策略存在对数界的事实。我们放松了一致性的概念,并展示了对数界的推广。我们还展示了汉南一致性的一般情况下不存在对数界。为了得到这些结果,我们研究了流行的上置信界(ucb)策略的变体。作为副产品,我们证明了不可能通过利用环境的特性来设计一个自适应策略,从而选择两种算法中的最佳算法。

作者:Antoine Salomon, Jean-Yves Audibert (INRIA Paris - Rocquencourt), Issam El Alaoui

论文ID:1112.3827

分类:Machine Learning

分类简称:stat.ML

提交时间:2011-12-19

PDF 下载: 英文版 中文版pdf翻译中