用奖励预测误差进行表示学习-arXiv论文预印本中文版

用奖励预测误差进行表示学习

摘要：奖励预测误差假设认为，中脑多巴胺系统的阶段性活动反映了强化学习中需要的预测误差以进行学习。除了多巴胺与奖励加工之间有充分的关联外，多巴胺还与许多与奖励预测误差无明确关系的功能有关。多巴胺水平的波动影响时间的主观感知，多巴胺突发在生成运动反应之前发生，多巴胺系统内部深入大脑的区域，包括海马和前额叶皮层的功能与奖励无直接联系。在本文中，我们提出，将这些功能联系起来的一个共同主题是表征，并且除了推动联想学习外，多巴胺系统所标示的预测误差还可以支持适应性状态表示的获取。通过一系列的模拟实验，我们展示了这种扩展如何解释多巴胺在时间和空间表示、运动反应和抽象分类任务中的作用。通过将多巴胺信号的作用扩展到学习状态表示，我们解决了多巴胺功能的奖励预测误差假设的一个关键挑战。

作者：William H. Alexander, Samuel J. Gershman

论文ID：2108.12402

分类：Neurons and Cognition

分类简称：q-bio.NC

提交时间：2022-07-26

PDF 下载： 英文版中文版pdf翻译中