在市场中实现基于一阶梯度的均衡计算的学习

摘要:市场的理解和分析非常重要,但分析均衡解在很大程度上是不可行的。最近均衡计算的突破依赖于零阶策略梯度估计。这些方法通常存在高方差且计算成本高昂。使用完全可微分的模拟器可以实现更高效的梯度估计。然而,在经济仿真中,商品的离散分配是一个不可微分的操作。这使得一阶蒙特卡洛梯度估计器不适用,并且学习反馈体系会产生系统性错误。我们提出了一种新颖的平滑技术,创建了一个替代市场游戏,可以应用一阶方法。我们提供了结果偏差的理论界限,从而证明解决平滑游戏是合理的。这些界限还允许事先选择平滑强度,以使得结果估计具有较低的方差。此外,我们通过大量实证实验证了我们的方法。我们的方法在近似质量和计算效率方面在理论上和实证上优于零阶方法。

作者:Nils Kohring and Fabian R. Pieroth and Martin Bichler

论文ID:2303.09500

分类:Computer Science and Game Theory

分类简称:cs.GT

提交时间:2023-03-17

PDF 下载: 英文版 中文版pdf翻译中