随机游戏中的时序差分强化学习的确定性极限-arXiv论文预印本中文版

随机游戏中的时序差分强化学习的确定性极限

摘要：多智能体系统中的强化学习一直以来都在经济博弈理论、人工智能和统计物理学领域进行研究，通过对学习动力学（通常与进化博弈理论的复制者动力学相关）进行分析来加深对其的理解。然而，大部分分析研究都集中在重复的标准形式博弈上，这些博弈只有一个环境状态。环境动态，即环境状态的变化会影响到智能体的回报，但却没有得到足够的关注，缺乏从已建立的多状态强化学习算法中获得确定性方程的通用方法。在这项工作中，我们提出了一种新的方法学扩展，将交互动作与适应时间尺度分离，以推导出一类被称为时序差分学习的强化学习算法的确定性极限。这种学习形式通过使用未来环境状态的估计值来调整智能体的行为，从而适应更加现实的多状态环境。我们使用三种已建立的学习算法Q学习、巴拉马斯学习和演员-评论家学习来展示我们方法的潜力。对两个多智能体、多状态环境的动态进行说明，显示出各种不同的动力学机制，如收敛到固定点、极限周期甚至确定性混沌。

作者：Wolfram Barfuss, Jonathan F. Donges and J"urgen Kurths

论文ID：1809.07225

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2019-06-25

PDF 下载： 英文版中文版pdf翻译中