一种基于抽样的吉汀斯指数近似方法-arXiv论文预印本中文版

一种基于抽样的吉汀斯指数近似方法

摘要：一种基于采样的方法被引入来近似一般家族的替代赌博过程的Gittins指数。这个近似包括了对优化视野的截断和对即时奖励的支持，一个最优停止值近似和一个随机近似过程。对于这三种近似，给出了有限时间的误差界限，从而可以使用有限数量的蒙特卡洛样本构建Gittins指数的置信区间，并为贝叶斯多臂赌博问题提供了一个epsilon-最优策略。为基于采样的Gittins指数近似给出了几乎确定收敛和分布收敛的证明。在数值研究中，验证了所提方法对于Bernoulli赌博和已知方差的Gaussian赌博的近似质量，并且证明了该方法在一种新颖的随机效应多臂赌博问题上明显优于Thompson采样和贝叶斯上限置信度算法。

作者：Stef Baas, Richard J. Boucherie, Aleida Braaksma

论文ID：2307.11713

分类：Optimization and Control

分类简称：math.OC

提交时间：2023-07-24

PDF 下载： 英文版中文版pdf翻译中