指数族中对比散度算法的收敛性
摘要:对比散度(CD)算法在训练基于能量模型的受限玻尔兹曼机等方面取得了显著的成功,并在深度学习的出现中发挥了关键作用。该算法的思想是通过使用短的马尔可夫链蒙特卡罗(MCMC)运行来近似对数似然函数的精确梯度中的难以计算的项。近似梯度计算成本低廉但存在偏差。 CD算法是否以及为何提供渐近一致的估计仍然是一个未解之谜。本文研究了CD算法在标准指数族中的渐近性质,这些标准指数族是能量模型的特例。假设CD算法在每次迭代$t$中运行$m$次MCMC转移步骤,并给定一个独立同分布的数据样本${X_i}_{i=1}^n \sim p_{\theta^*}$,我们证明了在实践中CD算法通常遵守的条件下,存在一些有界的$m$,使得时间平均值$sum_{s=0}^{t-1}\theta_s / t$的任何极限点,当$t\to\infty$时成为真实参数$\theta^*$的一致估计。我们的证明基于事实${\theta_t}_{t\ge0}$是在给定数据样本${X_i}_{i=1}^n$的条件下的均匀马尔可夫链。该链满足Foster-Lyapunov漂移准则,并收敛到围绕最大似然估计的随机游走。随机游走的范围以速率$O(1/\sqrt[3]{n})$缩小,当样本大小$n\to\infty$时。
作者:Bai Jiang, Tung-Yu Wu, Yifan Jin, Wing H. Wong
论文ID:1603.05729
分类:Machine Learning
分类简称:stat.ML
提交时间:2018-03-01