资源受限代理在安全博弈中的战略行动
摘要:人类的许多研究已经表明,人类是“可预测的非理性”:他们不完全按照理性方式行事,但他们的偏离理性行为是相当系统化的。我们的目标是看到在资源有限的情况下,我们能够将这些偏离解释和合理化为理性行为。我们关注研究得很透彻的护林员-偷猎者游戏,护林员试图保护一些地点免受偷猎。我们通过将偷猎者和护林员建模为概率有限自动机(PFAs)来捕捉计算限制。我们表明,通过足够大的记忆容量,PFAs可以学习玩游戏的纳什均衡(NE)策略,并达到NE效用。然而,如果我们限制记忆容量,我们会得到更多“类人”的行为,例如概率匹配(即,根据犀牛可能在那里的概率来访问地点)和避免在那里发生不良结果的地点(例如,偷猎者被抓住),这些行为我们也在亚马逊机械土耳其上的实验中观察到。有趣的是,我们发现添加类似人类的行为,如概率匹配和对重大事件(如被抓住)过分关注,实际上会提高性能,表明这种看似非理性的行为实际上是相当理性的。
作者:Xinming Liu, Joseph Y. Halpern
论文ID:2307.13778
分类:Computer Science and Game Theory
分类简称:cs.GT
提交时间:2023-07-27