使用多面体算法训练强化神经控制器

摘要:一种新的延迟强化学习训练算法的提出-使用多面体优化算法调整行动网络的权重,使训练性能的直接测量最大化。与基于评论家模型和遗传强化方法相比,在杆平衡问题的应用实验结果表明改进的训练性能。

作者:A. Likas and I. E. Lagaris

论文ID:cs/9812002

分类:Neural and Evolutionary Computing

分类简称:cs.NE

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中