好臂识别与赌博反馈

摘要:好臂识别(GAI)问题是一个新颖的随机多臂赌博问题,其中好臂定义为期望奖励大于或等于给定阈值的臂。GAI是一个纯探索问题,一个单一的代理人会重复一个过程,在确定其他臂不好之前,尽快输出一个好臂。GAI的目标是尽量减少每个过程的样本数量。我们发现GAI面临着一种新的困境,即置信度的探索和利用的困境,这与最佳臂识别是不同的困难。因此,GAI的算法设计与最佳臂识别的设计非常不同。我们推导了GAI样本复杂度的下界,该下界在接受错误率δ的对数因子O(log(1/δ))下是相当紧密的。我们还开发了一种算法,其样本复杂度几乎与下界匹配。我们还通过在基于传统赌博问题和类风湿性关节炎的临床试验研究的合成设置下的实验证明,我们提出的算法优于朴素算法。

作者:Hideaki Kano, Junya Honda, Kentaro Sakamaki, Kentaro Matsuura, Atsuyoshi Nakamura, Masashi Sugiyama

论文ID:1710.06360

分类:Machine Learning

分类简称:stat.ML

提交时间:2018-02-13

PDF 下载: 英文版 中文版pdf翻译中