任何时候赌徒策略的鲁棒性

摘要:随机多臂赌博问题中,本文研究了遗憾的偏差。当代理人事先知道总游戏次数n时,Audibert等人(2009年)展示了一种策略,使得该策略的遗憾以至少1-1/n的概率达到log(n)的量级。他们还表明,这种性质并不适用于Auer等人(2002年)的流行ucb1策略。本文首先回答了一个开放性问题:将这一负面结果推广到任何即时策略。本文的第二个贡献是为特定的多臂赌博问题设计即时鲁棒策略,在这些问题中对不同臂的可能分布集合设定了一些限制。

作者:Antoine Salomon, Jean-Yves Audibert

论文ID:1107.4506

分类:Machine Learning

分类简称:stat.ML

提交时间:2011-07-26

PDF 下载: 英文版 中文版pdf翻译中