用最小的多层机器学习(M3L)减少训练数据需求
摘要:最小多级机器学习(M3L)中优化训练数据集大小的损失函数在多个层次的参考数据中使用,以最小化预测误差与整体训练数据获取成本(以计算时间为衡量)的组合。对于计算的原子化能和电子亲和能,在不同理论水平(包括HF、MP2、DLPNO-CCSD(T)、DFHFCABS、PNOMP2F12和PNOCCSD(T)F12)以及基组(TZ、cc-pVTZ和AVTZ-F12)上得到了数值证据。我们使用M3L基准来在不同化学物质子空间中达到化学精度,与启发式次优多级机器学习(M2L)相比,计算成本减少的因子分别为$sim$ 1.01、1.1、3.8、13.8和25.8,对应于数据集QM7b、QM9$^mathrm{LCCSD(T)}$、EGP、QM9$^mathrm{CCSD(T)}\_mathrm{AE}$和QM9$^mathrm{CCSD(T)}\_mathrm{EA}$。此外,我们使用M2L来研究在多级学习中使用76个密度泛函时的性能,在Jacob's Ladder的层次结构中选择了LDA、GGA、mGGA和混合泛函。在考虑的分子中,mGGAs在GGAs上并没有明显的优势。在考虑的泛函中,与LDA结合使用时,对于QM9上的原子化能,在M3L中三个平均表现最好的GGA和混合泛函分别是PW91、KT2、B97D和$ au$-HCTH,B3LYP$ast$(VWN5)、TPSSH。
作者:Stefan Heinen and Danish Khan and Guido Falk von Rudorff and Konstantin Karandashev and Daniel Jose Arismendi Arrieta and Alastair J. A. Price and Surajit Nandi and Arghya Bhowmik and Kersti Hermansson and O. Anatole von Lilienfeld
论文ID:2308.11196
分类:Chemical Physics
分类简称:physics.chem-ph
提交时间:2023-08-23