利用统计多智体在线规划与新兴价值函数逼近
摘要:在分布式自主环境中做出决策是一个巨大的挑战,因为存在着巨大的状态空间和不确定性。许多在线规划算法依赖于统计抽样来避免搜索整个状态空间,同时还能够做出可接受的决策。然而,规划通常必须在严格的计算限制下进行,使得多智能体系统中的在线规划受到严重的限制,这可能导致系统性能不佳,特别是在随机领域中。在本文中,我们提出了一种名为“Emergent Value function Approximation for Distributed Environments(EVADE)”的方法,该方法在多智能体在线规划中集成了全局经验,以考虑局部规划期间的全局效果。为此,我们利用强化学习的方法,在线近似了一个基于新兴系统行为的值函数。我们在一个高度复杂和随机的智能工厂环境中对EVADE进行了实证评估,该环境中多个智能体需要在共享的一组机器上处理各种物品。我们的实验表明,EVADE能够有效提高多智能体在线规划的性能,并在规划过程的广度和深度方面提供了效率。
作者:Thomy Phan, Lenz Belzner, Thomas Gabor and Kyrill Schmid
论文ID:1804.06311
分类:Multiagent Systems
分类简称:cs.MA
提交时间:2018-04-18