在不确定的信道条件下学习远程状态估计的最优调度策略
摘要:传感器调度的最优化问题考虑了未知通信信道统计的情况。我们分别提出了两种调度问题,其中通信速率是软约束或硬约束。我们首先通过动态规划方法,假设通信信道统计已知,给出了最优调度策略的一些结构结果。我们证明Q因子是单调的和子模的,这导致了两种问题中的类似阈值的结构。然后我们发展了一种随机逼近和参数学习框架,来处理未知通信信道统计的两种调度问题。我们利用它们的结构设计了专门的学习算法。我们证明了这些算法的收敛性。通过数值实例展示了与标准的Q-learning算法相比的性能提升。
作者:Shuang Wu, Xiaoqiang Ren, Qing-Shan Jia, Karl Henrik Johansson, Ling Shi
论文ID:1810.09820
分类:Systems and Control
分类简称:cs.SY
提交时间:2019-11-12