粪便研究不经过嗅觉测试:对人类肠道菌群研究的系统性综述揭示了机器学习的广泛误用。
摘要:机器学习文化中,需要有一个独立的测试集进行正确的模型验证。模型验证的失败,包括测试集遗漏和测试集泄露,使人们无法知道训练的模型是否适合目的。本文对人类肠道菌群分类研究进行了系统回顾和定量分析,以测量测试集遗漏和测试集泄露对接收操作曲线下面积(AUC)报告的频率和影响。在102篇分析的文章中,我们发现只有12%的研究报告了真正的测试集AUC,这意味着88%的研究的发布AUC不能直接信任。我们的研究结果严重怀疑了声称人类疾病中肠道菌群具有高诊断或预后潜力的研究的一般有效性。
作者:Thomas P. Quinn
论文ID:2107.03611
分类:Genomics
分类简称:q-bio.GN
提交时间:2021-07-09