强化学习中的时间基础

摘要:大脑对过去和未来都有时间线的的访问能力。哺乳动物大脑中许多区域的神经元群之间的尖峰活动维持着一个鲁棒的时间存储器,即最近过去的神经时间线。行为结果表明,人们可以估计一个延伸的未来时间模型,这表明过去的神经时间线可以延伸至现在和未来。本文提出了一个学习和表达连续时间事件之间关系的数学框架。我们假设大脑可以通过最近过去的真实拉普拉斯变换访问时间存储器。过去和现在之间形成了各种突触时间尺度的赫布变异数码,记录了事件之间的时间关系。了解过去和现在之间的时间关系可以预测现在和未来之间的关系,从而构建未来的延伸时间预测。过去和预测未来的记忆都表示为实数拉普拉斯变换,以不同速率常数s索引的神经元人群的发放率来表示。各种突触时间尺度使得可以在试验历史的更大时间尺度上进行时间记录。在这个框架中,可以通过拉普拉斯时间差来评估时间信誉分配。拉普拉斯时间差比较实际遵循刺激的未来与观察刺激之前的预测未来。这个计算框架提出了一些具体的神经生理预测,并且结合在一起,可以为未来的强化学习提供基础,将时间存储器作为基本构建块。

作者:Marc W. Howard and Zahra G. Esfahani and Bao Le and Per B. Sederberg

论文ID:2302.10163

分类:Neurons and Cognition

分类简称:q-bio.NC

提交时间:2023-02-21

PDF 下载: 英文版 中文版pdf翻译中