任何时候赌徒策略的鲁棒性
摘要:随机多臂赌博问题中,本文研究了遗憾的偏差。当代理人事先知道总游戏次数n时,Audibert等人(2009年)展示了一种策略,使得该策略的遗憾以至少1-1/n的概率达到log(n)的量级。他们还表明,这种性质并不适用于Auer等人(2002年)的流行ucb1策略。本文首先回答了一个开放性问题:将这一负面结果推广到任何即时策略。本文的第二个贡献是为特定的多臂赌博问题设计即时鲁棒策略,在这些问题中对不同臂的可能分布集合设定了一些限制。
作者:Antoine Salomon, Jean-Yves Audibert
论文ID:1107.4506
分类:Machine Learning
分类简称:stat.ML
提交时间:2011-07-26