组合预测游戏的极小最大策略
摘要:在线线性优化问题中,我们采用二进制向量表示预测者的行动。我们的目标是了解在最坏情况下行动的最小化后悔的大小。我们研究了三种不同的反馈假设:全信息、部分信息的“半赌徒”问题和“赌徒”问题。我们考虑敌手指定的损失的$L_{\infty}$类型和$L_{2}$类型的限制。我们通过在潜在势梯度下进行Bregman投影来制定了一个通用策略,这个策略推广了Gyorgy等人(2007)、Dani等人(2008)、Abernethy等人(2008)、Cesa-Bianchi和Lugosi(2009)、Helmbold和Warmuth(2009)、Koolen等人(2010)、Uchiya等人(2010)、Kale等人(2010)和Audibert和Bubeck(2010)在一系列论文中研究过的策略。我们提供了简单的证明来证明大部分以前的结果。我们为半赌徒游戏提出了新的上界。此外,我们还得出了关于这三种反馈假设的下界。除了赌徒游戏之外,上下界基本相等,只相差一个常数因子。最后,我们通过展示指数加权平均预测者对$L_{\infty}$敌手是次优的来回答Koolen等人(2010)的提问。
作者:Jean-Yves Audibert, Sebastien Bubeck, Gabor Lugosi
论文ID:1105.4871
分类:Machine Learning
分类简称:stat.ML
提交时间:2011-05-25