遗憾的下限与扩展的上界置信区间策略在随机多臂赌博机问题中
摘要:遗憾下界在经典的随机多臂赌博机模型中的研究。莱和罗宾斯的著名结果,已被Burnetas和Katehakis扩展,建立了所有一致策略存在对数界的事实。我们放松了一致性的概念,并展示了对数界的推广。我们还展示了汉南一致性的一般情况下不存在对数界。为了得到这些结果,我们研究了流行的上置信界(ucb)策略的变体。作为副产品,我们证明了不可能通过利用环境的特性来设计一个自适应策略,从而选择两种算法中的最佳算法。
作者:Antoine Salomon, Jean-Yves Audibert (INRIA Paris - Rocquencourt), Issam El Alaoui
论文ID:1112.3827
分类:Machine Learning
分类简称:stat.ML
提交时间:2011-12-19