迭代博弈的反应性学习策略-arXiv论文预印本中文版

迭代博弈的反应性学习策略

摘要：通过一种迭代游戏，我们对于在一个玩家使用固定策略，而另一个玩家可以自由切换策略时的可行收益集合非常感兴趣。这些特点引发了许多研究，其中使用了记忆一策略，该策略根据上一轮的结果决定采取行动的概率。在这里，我们考虑了“反应学习策略”，它们根据对手的过去行动逐渐修改采取特定行动的倾向。每一个线性反应学习策略都对应一个记忆一策略，反之亦然。我们证明，在评估对记忆一策略的可行收益区域$mathcal{C}left(mathbf{p} ight)$时，我们需要检查其对高达$11$个其他策略的性能。因此，$mathcal{C}left(mathbf{p} ight)$是$mathbb{R}^{2}$中高达$11$个点的凸包。此外，如果$mathbf{p}$是一个记忆一策略，具有可行收益区域$mathcal{C}left(mathbf{p} ight)$，而$mathbf{p}^{ast}$是相应的反应学习策略，具有可行收益区域$mathcal{C}left(mathbf{p}^{ast} ight)$，那么$mathcal{C}left(mathbf{p}^{ast} ight)$是$mathcal{C}left(mathbf{p} ight)$的子集。因此，反应学习策略是限制迭代游戏结果的强大工具。

作者：Alex McAvoy and Martin A. Nowak

论文ID：1903.04443

分类：Populations and Evolution

分类简称：q-bio.PE

提交时间：2022-02-18

PDF 下载： 英文版中文版pdf翻译中