迭代博弈的反应性学习策略

摘要:通过一种迭代游戏,我们对于在一个玩家使用固定策略,而另一个玩家可以自由切换策略时的可行收益集合非常感兴趣。这些特点引发了许多研究,其中使用了记忆一策略,该策略根据上一轮的结果决定采取行动的概率。在这里,我们考虑了“反应学习策略”,它们根据对手的过去行动逐渐修改采取特定行动的倾向。每一个线性反应学习策略都对应一个记忆一策略,反之亦然。我们证明,在评估对记忆一策略的可行收益区域$mathcal{C}left(mathbf{p} ight)$时,我们需要检查其对高达$11$个其他策略的性能。因此,$mathcal{C}left(mathbf{p} ight)$是$mathbb{R}^{2}$中高达$11$个点的凸包。此外,如果$mathbf{p}$是一个记忆一策略,具有可行收益区域$mathcal{C}left(mathbf{p} ight)$,而$mathbf{p}^{ast}$是相应的反应学习策略,具有可行收益区域$mathcal{C}left(mathbf{p}^{ast} ight)$,那么$mathcal{C}left(mathbf{p}^{ast} ight)$是$mathcal{C}left(mathbf{p} ight)$的子集。因此,反应学习策略是限制迭代游戏结果的强大工具。

作者:Alex McAvoy and Martin A. Nowak

论文ID:1903.04443

分类:Populations and Evolution

分类简称:q-bio.PE

提交时间:2022-02-18

PDF 下载: 英文版 中文版pdf翻译中