多项式时间内的线性交换遗憾最小化在不完全信息的顺序博弈中

摘要:没有后悔的学习者试图最小化他们通过所采取的行动累积的损失与若干策略转换函数一致改变行为后,会在回顾中累积的损失之间的差异。学习者所考虑的转换集合的大小决定了一种自然的理性观念。随着学习者所考虑的转换集合的增长,学习者所采取的策略会恢复到更复杂的博弈论均衡,包括正规式博弈中的相关均衡和展开式博弈中的展开式相关均衡。极端情况下,一个无置换后悔的代理是那个最小化对所有从策略集合到自身的函数集合的后悔的。虽然人们知道无置换后悔条件在非顺序(正规式)博弈中可以高效达到,但是在顺序(展开式)博弈中,了解最强的理性概念是什么,在最坏情况下可以高效实现,这是一个长期存在的未解决问题。在本文中,我们通过证明,在任何顺序博弈中,可以在多项式时间(以博弈树大小)的迭代中同时实现对于所有线性转换混合策略空间的次线性后悔,这种概念被称为无线性置换后悔。这种回顾理性与非顺序博弈中的无置换后悔一样强,比顺序博弈中的无触发后悔更强。从而证明了存在一组对线性偏差具有鲁棒性的展开式相关均衡,称为线性偏差相关均衡,可以高效接近。

作者:Gabriele Farina and Charilaos Pipis

论文ID:2307.05448

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-07-12

PDF 下载: 英文版 中文版pdf翻译中