智能知识分配：资源感知的多智能体通信中的受限行动POMDPs-arXiv论文预印本中文版

智能知识分配：资源感知的多智能体通信中的受限行动POMDPs

摘要：多智能体知识分配的基本问题是：每个智能体应该在有限的资源下什么时候向谁发送哪些信息？当需要维护环境的准确图像以及其他智能体的状态时，多智能体系统的通信需求可能非常高。为了减少多智能体协调对网络系统（如功耗和带宽）的影响，本文引入了两个部分可观测马尔可夫决策过程（POMDP）的概念：1）基于行动的约束，产生受约束的行动POMDP（CA-POMDP）；2）为得到的无限时间控制器提供软概率约束满足。为了实现对无限时间段的约束分析，首先将无约束策略表示为有限状态控制器（FSC），并通过策略迭代进行优化。然后，FSC表示允许使用马尔可夫链蒙特卡洛和离散优化的组合，以提高控制器的概率约束满足，同时最小化对价值函数的影响。在CA-POMDP框架内，我们提出了智能知识分配（IKD），为智能体之间的知识分配提供了符合交互约束的每个智能体策略。最后，通过一个资产追踪问题对CA-POMDP和IKD的概念进行了验证，其中多个具有异构传感器的无人机协作定位地面资产，以帮助避免灾区中的障碍物。IKD模型能够通过多智能体通信来维持资产追踪，而只在3%的时间内违反了软功耗和带宽约束，而贪婪和幼稚的方法则在超过60%的时间内违反了约束。

作者：Michael C. Fowler and T. Charles Clancy and Ryan K. Williams

论文ID：1903.03086

分类：Multiagent Systems

分类简称：cs.MA

提交时间：2019-03-08

PDF 下载： 英文版中文版pdf翻译中