解决机器学习插值势中的不确定性量化问题的统计方法

摘要:使用机器学习插值势(MLIP)是从头开始的分子动力学模拟中替代量子力学评估的有希望方法,原因是它们能够以比化学准确度低四个数量级的成本复制能量和力的景观。虽然开发针对MLIP的不确定性量化(UQ)工具对于使用主动学习构建生产MLIP数据集至关重要,但只有有限的进展,并且最强大的方法(集合方法)仍然显示出高误差和高不确定性预测之间的低相关性。在这里,我们开发了一种根据统计学严格确定区分高和低UQ性能区域的错误截止方法。统计截止方法揭示了UQ性能差的一个主要原因是机器学习模型已经描述了整个数据集,并且没有任何具有大于统计误差分布的误差的数据点。其次,我们将统计分析扩展到创建一个可解释的误差和不确定性分布之间的连接,以预测区分高和低误差的不确定性截止方法。我们在两个具有不同化学复杂性的数据集上展示了统计截止在活动学习基准测试中的表现,用于三种常见的UQ方法:集合方法、稀疏高斯过程和潜在距离度量,并将其与真实误差和随机抽样进行比较,结果显示统计截止可以推广到各种不同的UQ方法和协议中,并且其性能类似于使用真实误差。重要的是,我们得出结论,利用这个不确定性截止方法可以使用成本大大降低的不确定性量化工具,例如稀疏高斯过程和潜在距离,相比于集合方法以一小部分成本生成MLIP数据集。

作者:Emil Annevelink, Venkatasubramanian Viswanathan

论文ID:2308.15653

分类:Materials Science

分类简称:cond-mat.mtrl-sci

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中