从同行评议的文献中自主提取数据,用于训练氧化潜能机器学习模型

摘要:一种基于卷积神经网络和大型语言模型的自动化数据收集流程,可从同行评议文献中提取用户指定的表格数据。该流程应用于1957年至2014年间发表的74份报告,涉及592种有机分子的实验测得的氧化电位数据(-0.75到3.58 V)。在对数据进行整理(包括溶剂、参比电极和缺失数据点)之后,我们训练了多个监督式机器学习模型,并获得与实验不确定性相似的预测误差(约为0.2 V)。对于多个研究中报告的相同分子的实验测量结果,我们根据机器学习预测结果,在样本之外的范围内确定了最有可能的数值。借助训练好的机器学习模型,我们还预测了来自QM9数据集的约132,000个小有机分子的氧化电位,预测值范围从0.21 V到3.46 V。对于QM9预测结果的分析表明,在可行的描述符-性质趋势方面,脂肪度平均增加了有机分子的氧化电位约1.5 V至2 V,而重原子数的增加则会使其系统性地降低。该流程显著减少了传统手动数据收集所需的人力工作量,并展示了如何通过自动化加速科学研究。

作者:Siwoo Lee and Stefan Heinen and Danish Khan and O. Anatole von Lilienfeld

论文ID:2308.00389

分类:Chemical Physics

分类简称:physics.chem-ph

提交时间:2023-08-02

PDF 下载: 英文版 中文版pdf翻译中