学习适应性风险敏感策略以在多智体广义和博弈中协调-arXiv论文预印本中文版

学习适应性风险敏感策略以在多智体广义和博弈中协调

摘要：增强型风险敏感策略的调整进入全局和总和游戏，由于自利学习代理之间的相互作用，常常导致不利于社会的结果，比如重复的狩猎中，合作合作策略的缺乏。以前的工作通过共享奖励或塑造对手的学习过程来解决这个挑战，但这需要太强的假设。本文中，我们证明了训练成为优化预期回报的代理人更可能选择一种安全行动，这导致了保证但较低的奖励。然而，在长期来看，通常有一种风险行动，只有代理人合作才能获得更高的奖励，例如，在狩猎中合作合作。为了克服这一问题，我们提出使用行动价值分布来描述决策的风险和相应的潜在回报。具体而言，我们提出了可调节的风险敏感策略(ARSP)。ARSP通过学习代理人回报的分布并估计动态风险寻求奖励，来发现风险合作策略。此外，为了避免过度拟合对手的训练，ARSP学习了一个辅助对手建模任务，以推断对手的类型并在执行过程中动态改变相应的策略。从实证的角度来看，通过ARSP训练的代理人在训练过程中可以实现稳定的协调，而无需访问对手的奖励或学习过程，并且在执行过程中可以适应非合作的对手。据我们所知，这是第一种在重复的囚犯困境和狩猎中学习代理人之间的协调策略的方法，既不塑造对手也不塑造奖励，并且可以适应在执行过程中具有不同策略的对手。此外，我们还展示了ARSP可以在高维设置中进行扩展。

作者：Ziyi Liu, Yongchun Fang

论文ID：2303.07850

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2023-03-15

PDF 下载： 英文版中文版pdf翻译中