无人机集成强化学习算法的惯性导航技术研究

摘要:基于智能代理选择的动作,首先定义适当的状态表示和动作空间,然后设计一个调整机制。调整机制输出代理的下一个状态和奖励值,并计算调整后状态与未调整状态之间的误差。此外,智能代理将获取到的包含状态和奖励值的经验样本存储在缓冲区中,并在每次迭代中重放这些经验以学习环境的动态特征。我们将改进后的算法命名为DQM算法。实验结果表明,使用我们提出的算法的智能代理能够有效减少动态环境中惯性导航的累积误差。尽管我们的研究为实现无人机自主导航提供了基础,但仍有很大的优化空间。进一步的研究可以包括在模拟环境中测试无人机、在实际环境中测试无人机、优化奖励函数的设计、改进算法流程以增强收敛速度和性能,并增强算法的泛化能力。

作者:Longcheng Guo

论文ID:2307.14038

分类:Robotics

分类简称:cs.RO

提交时间:2023-07-27

PDF 下载: 英文版 中文版pdf翻译中