利用统计多智体在线规划与新兴价值函数逼近-arXiv论文预印本中文版

利用统计多智体在线规划与新兴价值函数逼近

摘要：在分布式自主环境中做出决策是一个巨大的挑战，因为存在着巨大的状态空间和不确定性。许多在线规划算法依赖于统计抽样来避免搜索整个状态空间，同时还能够做出可接受的决策。然而，规划通常必须在严格的计算限制下进行，使得多智能体系统中的在线规划受到严重的限制，这可能导致系统性能不佳，特别是在随机领域中。在本文中，我们提出了一种名为“Emergent Value function Approximation for Distributed Environments（EVADE）”的方法，该方法在多智能体在线规划中集成了全局经验，以考虑局部规划期间的全局效果。为此，我们利用强化学习的方法，在线近似了一个基于新兴系统行为的值函数。我们在一个高度复杂和随机的智能工厂环境中对EVADE进行了实证评估，该环境中多个智能体需要在共享的一组机器上处理各种物品。我们的实验表明，EVADE能够有效提高多智能体在线规划的性能，并在规划过程的广度和深度方面提供了效率。

作者：Thomy Phan, Lenz Belzner, Thomas Gabor and Kyrill Schmid

论文ID：1804.06311

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2018-04-18

PDF 下载： 英文版中文版pdf翻译中