一种基于抽样的吉汀斯指数近似方法

摘要:一种基于采样的方法被引入来近似一般家族的替代赌博过程的Gittins指数。这个近似包括了对优化视野的截断和对即时奖励的支持,一个最优停止值近似和一个随机近似过程。对于这三种近似,给出了有限时间的误差界限,从而可以使用有限数量的蒙特卡洛样本构建Gittins指数的置信区间,并为贝叶斯多臂赌博问题提供了一个epsilon-最优策略。为基于采样的Gittins指数近似给出了几乎确定收敛和分布收敛的证明。在数值研究中,验证了所提方法对于Bernoulli赌博和已知方差的Gaussian赌博的近似质量,并且证明了该方法在一种新颖的随机效应多臂赌博问题上明显优于Thompson采样和贝叶斯上限置信度算法。

作者:Stef Baas, Richard J. Boucherie, Aleida Braaksma

论文ID:2307.11713

分类:Optimization and Control

分类简称:math.OC

提交时间:2023-07-24

PDF 下载: 英文版 中文版pdf翻译中