智能知识分配:资源感知的多智能体通信中的受限行动POMDPs

摘要:多智能体知识分配的基本问题是:每个智能体应该在有限的资源下什么时候向谁发送哪些信息?当需要维护环境的准确图像以及其他智能体的状态时,多智能体系统的通信需求可能非常高。为了减少多智能体协调对网络系统(如功耗和带宽)的影响,本文引入了两个部分可观测马尔可夫决策过程(POMDP)的概念:1)基于行动的约束,产生受约束的行动POMDP(CA-POMDP);2)为得到的无限时间控制器提供软概率约束满足。为了实现对无限时间段的约束分析,首先将无约束策略表示为有限状态控制器(FSC),并通过策略迭代进行优化。然后,FSC表示允许使用马尔可夫链蒙特卡洛和离散优化的组合,以提高控制器的概率约束满足,同时最小化对价值函数的影响。在CA-POMDP框架内,我们提出了智能知识分配(IKD),为智能体之间的知识分配提供了符合交互约束的每个智能体策略。最后,通过一个资产追踪问题对CA-POMDP和IKD的概念进行了验证,其中多个具有异构传感器的无人机协作定位地面资产,以帮助避免灾区中的障碍物。IKD模型能够通过多智能体通信来维持资产追踪,而只在3%的时间内违反了软功耗和带宽约束,而贪婪和幼稚的方法则在超过60%的时间内违反了约束。

作者:Michael C. Fowler and T. Charles Clancy and Ryan K. Williams

论文ID:1903.03086

分类:Multiagent Systems

分类简称:cs.MA

提交时间:2019-03-08

PDF 下载: 英文版 中文版pdf翻译中