使用多面体算法训练强化神经控制器-arXiv论文预印本中文版

使用多面体算法训练强化神经控制器

摘要：一种新的延迟强化学习训练算法的提出-使用多面体优化算法调整行动网络的权重，使训练性能的直接测量最大化。与基于评论家模型和遗传强化方法相比，在杆平衡问题的应用实验结果表明改进的训练性能。

作者：A. Likas and I. E. Lagaris

论文ID：cs/9812002

分类：Neural and Evolutionary Computing

分类简称：cs.NE

提交时间：2007-05-23

PDF 下载： 英文版中文版pdf翻译中