强化学习中规范转换的框架
摘要:自动合成算法允许自动构建对以马尔科夫决策过程(MDP)模型为基础的环境进行控制的策略,这些策略在高层次的时间逻辑规范下是最优的。然而,这些算法假设MDP模型是预先已知的。相反,增强学习(RL)算法旨在在MDP的转移概率未知的情况下学习最优策略,但需要用户将本地奖励与转移关联起来。对于高层次的时间逻辑规范的吸引力促使研究者开发了针对从规范中合成策略的RL算法。为了理解这些技术和其理论保证的微妙变化,在不断增长的研究文献中,我们开发了一个形式框架,用于定义具有不同目标形式的RL任务之间的转换。我们定义了采样导向降维的概念,将给定的MDP转化为另一个即使在原始MDP的转移概率未知的情况下也可以模拟的MDP。我们形式化地定义了保留最优策略、收敛性和鲁棒性的概念。然后,我们使用我们的框架重新阐述已知结果,建立一些补充,发现未解决的问题。特别地,我们证明了从LTL规范到基于奖励的规范的某些类型的降维不存在,并且证明了对于安全规范,RL算法具有PAC-MDP保证的不存在性。
作者:Rajeev Alur, Suguman Bansal, Osbert Bastani and Kishor Jothimurugan
论文ID:2111.00272
分类:Formal Languages and Automata Theory
分类简称:cs.FL
提交时间:2022-05-31