多智能体环境中的自我调控强化学习

摘要:去中心化的内在动机技能获取问题中,代理人被置于一个没有预定义目标的环境中,需要获取一个开放性技能库。为此,代理人需要是自主的(源自希腊语auto(自我)和telos(终极目标)):它需要生成目标,并学会根据自身内在动机而不是外部监督来实现它们。自主代理人迄今为止一直被认为是孤立的。但是,许多无限学习的应用涉及代理人群体。多代理环境对于自主代理人提出了额外的挑战:要发现和掌握需要合作的目标,代理人必须同时追求它们,但如果它们独立地进行采样,成功的机会就很低。 在本工作中,我们提出了一种新的学习范式来建模这样的设置,即去中心化的内在动机技能获取问题(Dec-IMSAP),并用它来解决合作导航任务。首先,我们表明独立设定目标的代理人无法掌握所有目标的多样性。然后,我们表明实现这一点的一个充分条件是确保团队对齐目标,即代理人追求相同的合作目标。我们的经验分析表明,目标对齐使得专业化成为一种有效的合作策略。最后,我们引入了一个完全去中心化的紧急沟通算法,即目标协调游戏,其中目标对齐是多目标合作环境中最大化个体回报的结果,并且它能够达到与保证对齐目标的集中化训练基线相等的性能。据我们所知,这是首次在去中心化的训练范式中解决了内在动机多代理目标探索问题。

作者:Eleni Nisioti and El''ias Masquil and Gautier Hamon and and Cl''ement Moulin-Frier

论文ID:2211.06082

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2023-07-13

PDF 下载: 英文版 中文版pdf翻译中