遗憾的下限与扩展的上界置信区间策略在随机多臂赌博机问题中-arXiv论文预印本中文版

遗憾的下限与扩展的上界置信区间策略在随机多臂赌博机问题中

摘要：遗憾下界在经典的随机多臂赌博机模型中的研究。莱和罗宾斯的著名结果，已被Burnetas和Katehakis扩展，建立了所有一致策略存在对数界的事实。我们放松了一致性的概念，并展示了对数界的推广。我们还展示了汉南一致性的一般情况下不存在对数界。为了得到这些结果，我们研究了流行的上置信界（ucb）策略的变体。作为副产品，我们证明了不可能通过利用环境的特性来设计一个自适应策略，从而选择两种算法中的最佳算法。

作者：Antoine Salomon, Jean-Yves Audibert (INRIA Paris - Rocquencourt), Issam El Alaoui

论文ID：1112.3827

分类：Machine Learning

分类简称：stat.ML

提交时间：2011-12-19

PDF 下载： 英文版中文版pdf翻译中