随机游戏中的时序差分强化学习的确定性极限

摘要:多智能体系统中的强化学习一直以来都在经济博弈理论、人工智能和统计物理学领域进行研究,通过对学习动力学(通常与进化博弈理论的复制者动力学相关)进行分析来加深对其的理解。然而,大部分分析研究都集中在重复的标准形式博弈上,这些博弈只有一个环境状态。环境动态,即环境状态的变化会影响到智能体的回报,但却没有得到足够的关注,缺乏从已建立的多状态强化学习算法中获得确定性方程的通用方法。 在这项工作中,我们提出了一种新的方法学扩展,将交互动作与适应时间尺度分离,以推导出一类被称为时序差分学习的强化学习算法的确定性极限。这种学习形式通过使用未来环境状态的估计值来调整智能体的行为,从而适应更加现实的多状态环境。我们使用三种已建立的学习算法Q学习、巴拉马斯学习和演员-评论家学习来展示我们方法的潜力。对两个多智能体、多状态环境的动态进行说明,显示出各种不同的动力学机制,如收敛到固定点、极限周期甚至确定性混沌。

作者:Wolfram Barfuss, Jonathan F. Donges and J"urgen Kurths

论文ID:1809.07225

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2019-06-25

PDF 下载: 英文版 中文版pdf翻译中