用于精确性和可迁移性的原子间势训练数据选择
摘要:机器学习技术的进步使得开发具有第一原理方法准确性和经验势线性缩放、并行效率的能力成为可能。然而,尽管在过去几年取得了快速进展,基于机器学习的势函数通常很难实现可传输性,即在与训练模型显著不同的配置中保持一致的准确性。为了真正实现基于机器学习的势函数的潜力,有必要开发系统性和可扩展的方法来生成多样化的训练集,从而确保对原子环境空间的广泛覆盖。本研究探讨了一种基于熵优化的构造多样性方法,以自动方式(即无需人工干预)创建钨的非常大(>2×10^5个配置,>7×10^6个原子环境)的训练集。该数据集用于训练多项式和多个神经网络势函数,采用不同的架构。为了比较,还针对钨制备了相应的专家构建的势函数。与专家构建的模型相比,基于熵优化数据训练的模型具有更好的传输性能。此外,虽然在相似配置上进行测试时,基于用户输入(即领域专业知识)训练的模型产生的误差最低,但当模型在故意多样化的训练数据集上进行训练时,外样预测会显著更加稳健。本文展示了使用自动化和数据驱动方法开发准确且可传输的机器学习势函数的能力,为生成大而多样的训练集。
作者:David Montes de Oca Zapiain, Mitchell A. Wood, Nicholas Lubbers, Carlos Z. Pereyra, Aidan P. Thompson, and Danny Perez
论文ID:2201.09829
分类:Computational Physics
分类简称:physics.comp-ph
提交时间:2022-05-06