分散式多智能体环境中通过公共制裁获取社会规范的学习代理-arXiv论文预印本中文版

分散式多智能体环境中通过公共制裁获取社会规范的学习代理

摘要：社会的特点是存在着各种不同的社会规范：一种可以防止错误协调和搭便车的集体制裁模式。受此启发，我们的目标是构建学习动力学，可以出现潜在有益的社会规范。由于社会规范是建立在制裁基础上的，我们引入了一个训练机制，让agent可以访问所有的制裁事件，但学习过程是分散的。从技术上讲，这一设置是有趣的，因为在分散的多agent系统中，制裁事件可能是唯一可用的公共信号，而奖励或政策共享是不可行或不可取的。为了在这种设置中实现集体行动，我们构建了一个agent架构，其中包含一个分类器模块，将观察到的行为划分为批准或不批准，并有一个根据群体惩罚的动机。我们展示了包含这个agent的多agent系统中社会规范是如何出现的，并研究这些规范有助于他们实现有益的社会结果的条件。

作者：Eugene Vinitsky, Raphael K"oster, John P. Agapiou, Edgar Du''e~nez-Guzm''an, Alexander Sasha Vezhnevets, Joel Z. Leibo

论文ID：2106.09012

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2022-09-29

PDF 下载： 英文版中文版pdf翻译中