关于最优停时问题中的最优排序
摘要:经典的最优停止问题中,玩家给定一系列具有已知分布的随机变量X1, ..., Xn。观察到Xi的实现后,玩家可以选择接受X i的观察报酬并停止,或者拒绝X i的观察报酬并继续观察序列中的下一个变量Xi+1。在任意固定的随机变量排序下,最优停止策略,即最大化玩家期望奖励的策略,由简单的动态规划解给出。在本文中,我们研究了选择观察随机变量的顺序以最大化停止时的期望奖励这一相对较少研究的问题。为了展示选择顺序的好处,我们证明了一个新的先知不等式,表明当每个随机变量的支持集的大小最多为2时,最优顺序可以实现的期望奖励不超过已知最大值的1.25倍;这是比最坏情况下顺序对应的因子2改进的。我们还提供了一个简单的O(n^2)算法,在这种情况下找到一个最优的排序。令人惊讶的是,我们证明了一个稍微更一般的情况,即每个随机变量Xi限制为具有形式{0,mi,1}的三点支持,是NP难的,并为该情况提供了一个FPTAS算法。
作者:Shipra Agrawal, Jay Sethuraman, Xingyu Zhang
论文ID:1911.05096
分类:Discrete Mathematics
分类简称:cs.DM
提交时间:2020-07-24