探索强化学习中用于泛化的新型多样性质量方法
摘要:强化学习领域在成就方面非常强大,但在再应用方面却较弱;一个能以超凡水平下围棋的计算机在井字棋方面仍然表现糟糕。本文探讨了训练网络方法是否能改善其泛化能力。具体地,我们研究了核心质量多样性算法,并与两个最近的算法进行了比较,提出了一种新算法来处理现有方法的不足之处。尽管这些方法的结果远低于预期的性能,我们的研究提出了关于质量多样性中行为准则选择、微分和进化训练方法的相互作用以及离线强化学习和随机学习在进化搜索中的作用的重要观点。
作者:Brad Windsor, Brandon O'Shea, Mengxi Wu
论文ID:2303.14592
分类:Neural and Evolutionary Computing
分类简称:cs.NE
提交时间:2023-03-28