任何时候赌徒策略的鲁棒性-arXiv论文预印本中文版

任何时候赌徒策略的鲁棒性

摘要：随机多臂赌博问题中，本文研究了遗憾的偏差。当代理人事先知道总游戏次数n时，Audibert等人（2009年）展示了一种策略，使得该策略的遗憾以至少1-1/n的概率达到log(n)的量级。他们还表明，这种性质并不适用于Auer等人（2002年）的流行ucb1策略。本文首先回答了一个开放性问题：将这一负面结果推广到任何即时策略。本文的第二个贡献是为特定的多臂赌博问题设计即时鲁棒策略，在这些问题中对不同臂的可能分布集合设定了一些限制。

作者：Antoine Salomon, Jean-Yves Audibert

论文ID：1107.4506

分类：Machine Learning

分类简称：stat.ML

提交时间：2011-07-26

PDF 下载： 英文版中文版pdf翻译中