分散式多智能体环境中通过公共制裁获取社会规范的学习代理

摘要:社会的特点是存在着各种不同的社会规范:一种可以防止错误协调和搭便车的集体制裁模式。受此启发,我们的目标是构建学习动力学,可以出现潜在有益的社会规范。由于社会规范是建立在制裁基础上的,我们引入了一个训练机制,让agent可以访问所有的制裁事件,但学习过程是分散的。从技术上讲,这一设置是有趣的,因为在分散的多agent系统中,制裁事件可能是唯一可用的公共信号,而奖励或政策共享是不可行或不可取的。为了在这种设置中实现集体行动,我们构建了一个agent架构,其中包含一个分类器模块,将观察到的行为划分为批准或不批准,并有一个根据群体惩罚的动机。我们展示了包含这个agent的多agent系统中社会规范是如何出现的,并研究这些规范有助于他们实现有益的社会结果的条件。

作者:Eugene Vinitsky, Raphael K"oster, John P. Agapiou, Edgar Du''e~nez-Guzm''an, Alexander Sasha Vezhnevets, Joel Z. Leibo

论文ID:2106.09012

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2022-09-29

PDF 下载: 英文版 中文版pdf翻译中