摘要:一种新的延迟强化学习训练算法的提出-使用多面体优化算法调整行动网络的权重,使训练性能的直接测量最大化。与基于评论家模型和遗传强化方法相比,在杆平衡问题的应用实验结果表明改进的训练性能。
作者:A. Likas and I. E. Lagaris
论文ID:cs/9812002
分类:Neural and Evolutionary Computing
分类简称:cs.NE
提交时间:2007-05-23
PDF 下载: 英文版 中文版pdf翻译中