基于强化学习的两个代理在重复博弈中相互合作的出现
摘要:合作是生态系统和人类社会的基础,强化学习为了解其产生机制提供了关键见解。然而,大多数先前的工作主要关注了人群水平的自组织,个体水平的基本动态仍然不清楚。在这里,我们研究了一个双方代理系统中合作的演化,每个代理根据经典的Q学习算法追求最优策略,在斯特严囚徒困境中发挥作用。我们揭示了强记忆和远见预期会导致协调最优策略(COPs)的出现,即两个代理都采取像胜留败换(WSLS)一样的行动来保持高水平的合作。否则,玩家会对自己合作伙伴的叛逃变得容忍,并且合作最终失去稳定,预示着危机的到来。此外,我们的分析显示,不同COPs的协调最优模式(COMs)随着记忆力的减弱和对未来的期望降低而逐渐失去稳定性,代理无法预测游戏中合作伙伴的行动,导致叛逃占主导地位。因此,我们给出了保持合作所需的未来期望和记忆力强度的限制。与先前的工作不同,探索对合作的影响并不一致,而是取决于COMs的组合。通过澄清这个双人系统中的这些基本问题,我们希望我们的工作对于理解更复杂的现实场景中合作的出现和稳定性有所帮助。
作者:Zhen-Wei Ding, Guo-Zhong Zheng, Chao-Ran Cai, Wei-Ran Cai, Li Chen, Ji-Qiang Zhang, Xu-Ming Wang
论文ID:2307.04612
分类:Physics and Society
分类简称:physics.soc-ph
提交时间:2023-07-11