演化内在动机以促进利他行为

摘要:多智能体合作是自然界的重要特征。许多任务涉及到个体激励与共同利益不一致的情况,然而从细菌到昆虫和人类等各种生物都能克服差异并协作。因此,对于多智能体强化学习(MARL)和进化理论领域而言,自私个体之间合作行为的出现是一个重要问题。在这里,我们研究了一类特定的多智能体问题,称为时间间隔社会困境(ISDs),其中个体与群体之间的冲突尤为尖锐。通过将MARL与适当结构化的自然选择相结合,我们证明了合作的个体归纳偏好可以以无模型的方式进行学习。为了实现这一点,我们引入了一种创新的深度强化学习代理模块化架构,支持多级选择。我们在两个具有挑战性的环境中展示了结果,并将其解释为文化和生态进化的背景下的结果。

作者:Jane X. Wang, Edward Hughes, Chrisantha Fernando, Wojciech M. Czarnecki, Edgar A. Duenez-Guzman, Joel Z. Leibo

论文ID:1811.05931

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2019-03-12

PDF 下载: 英文版 中文版pdf翻译中