资源受限代理在安全博弈中的战略行动-arXiv论文预印本中文版

资源受限代理在安全博弈中的战略行动

摘要：人类的许多研究已经表明，人类是“可预测的非理性”：他们不完全按照理性方式行事，但他们的偏离理性行为是相当系统化的。我们的目标是看到在资源有限的情况下，我们能够将这些偏离解释和合理化为理性行为。我们关注研究得很透彻的护林员-偷猎者游戏，护林员试图保护一些地点免受偷猎。我们通过将偷猎者和护林员建模为概率有限自动机(PFAs)来捕捉计算限制。我们表明，通过足够大的记忆容量，PFAs可以学习玩游戏的纳什均衡(NE)策略，并达到NE效用。然而，如果我们限制记忆容量，我们会得到更多“类人”的行为，例如概率匹配(即，根据犀牛可能在那里的概率来访问地点)和避免在那里发生不良结果的地点(例如，偷猎者被抓住)，这些行为我们也在亚马逊机械土耳其上的实验中观察到。有趣的是，我们发现添加类似人类的行为，如概率匹配和对重大事件(如被抓住)过分关注，实际上会提高性能，表明这种看似非理性的行为实际上是相当理性的。

作者：Xinming Liu, Joseph Y. Halpern

论文ID：2307.13778

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2023-07-27

PDF 下载： 英文版中文版pdf翻译中