伪单调多点伪梯度估计中的强盗在线学习
摘要:自主博弈模型是捕捉自利玩家之间相互作用的强大框架,并在建模从电力管理到药物传递等各种实际情景方面具有广泛适用性。尽管大多数现有的解算算法假设具有一阶信息或完全了解目标和其他人的行动配置,但在某些情况下,玩家只能获得实现的目标函数值作为可访问的信息。在本文中,我们设计了一种集成乐观镜像下降方案和多点伪梯度估计的探测器在线学习算法。我们进一步证明了,如果所研究的游戏仅仅是一致的,而不需要额外的Tikhonov正则化项或额外的范数条件,生成的实际游戏序列可以a.s. 收敛到一个临界点。最后,我们通过Rock-Paper-Scissors游戏和最小二乘估计游戏验证了所提出算法的有效性。
作者:Yuanhanqing Huang and Jianghai Hu
论文ID:2303.16430
分类:Optimization and Control
分类简称:math.OC
提交时间:2023-07-26