异构动力系统的无模型学习:一种联邦LQR方法
摘要:基于模型的非联合线性二次调节器(LQR)问题,我们研究了一个无模型的联邦学习算法,其中有M个代理机器人的动力学未知且各不相同,但是相似,它们通过合作学习一个最优策略以最小化平均的二次成本并保持数据的私密性。为利用代理机器人动力学的相似性,我们提出使用联邦学习(FL),允许代理机器人周期性地与中央服务器通信,通过利用所有代理机器人的更大数据集来训练策略。在此设置中,我们试图回答以下问题:(i)学到的公共策略是否对所有代理机器人都稳定?(ii)学到的公共策略与每个代理机器人自己的最优策略有多接近?(iii)每个代理机器人是否可以通过利用所有代理机器人的数据更快地学习到自己的最优策略?为了回答这些问题,我们提出了一种名为FedLQR的联邦和无模型算法。我们的分析克服了许多技术挑战,如代理机器人动力学的异质性、多个局部更新和稳定性问题。我们证明FedLQR在每次迭代时为所有代理机器人产生一个稳定的公共策略。我们提供了公共策略与每个代理机器人的本地最优策略之间的距离的界限。此外,我们证明在低异质性情况下,FedLQR在学习每个代理机器人的最优策略时,相对于单个代理机器人的设置,可以实现与代理机器人数量M成比例的样本复杂度减少。
作者:Han Wang, Leonardo F. Toso, Aritra Mitra, and James Anderson
论文ID:2308.11743
分类:Optimization and Control
分类简称:math.OC
提交时间:2023-08-24