大规模线性系统的近端算法和时间差异:外推、逼近和模拟

摘要:大规模线性和非线性固定点问题的解决方法是通过近端算法。我们表明,两种看似不同的方法之间存在密切联系,来自不同领域:1)用于解线性方程组的近端迭代,在数值分析和凸优化中很突出,以及2)与之中心相关的时序差异(TD)类型的方法,如TD(lambda)、LSTD(lambda)和LSPE(lambda),这在基于模拟的近似动态规划/强化学习(DP/RL)中是中心问题,并在大型游戏场景等方面有着显著的成功。 这种联系的一个好处是通过朝向TD迭代进行外推的方式加速标准的近端算法,从而具有更快的收敛速度。另一个好处是将DP/RL领域出现的几个新思想潜在地整合到近端算法的背景中。我们讨论了一些可能性,特别是使用低维度计算和模拟,将每个近端迭代投影到由少量基函数张成的子空间的算法。第三个好处是近端算法的洞察力和分析能够用于增强TD方法。 线性固定点方法可以推广到涉及收缩的非线性固定点问题,从而在不增加额外成本的情况下保证并潜在地加速近端和正向-反向分裂算法。此外,近端和TD方法的联系可以通过涉及连续线性化的新近端类似算法来推广到非线性(不可微分)固定点问题,类似于DP中的策略迭代。

作者:Dimitri P. Bertsekas

论文ID:1610.05427

分类:Numerical Analysis

分类简称:cs.NA

提交时间:2019-09-05

PDF 下载: 英文版 中文版pdf翻译中