多物种分布模型中分类过程的异质性建模可以提高预测性能。

摘要:大规模生物多样性数据的物种分布模型和地图对于保护管理是必要的。当前的一个问题是生物多样性数据容易出现分类错误。在多物种分布模型中考虑这些错误分类的方法假定分类概率在整个研究中是恒定的。但实际上,分类概率很可能随着数个协变量而变化。不考虑这种异质性可能导致参数估计的偏差。本文提出了一种能够考虑分类过程的异质性的多物种分布模型。所提出的模型假设分类混淆矩阵满足多项广义线性模型。通过评估模型对参数的估计以及其在保持样本上的预测性能,我们比较了异质性分类模型和均质性分类模型的性能。我们将该模型应用于从GBIF获取的挪威、丹麦和芬兰的海鸥数据。我们的模拟研究表明,在分类过程中考虑异质性可以提高精度30%,降低准确性和召回率6%。将该模型框架应用于海鸥数据集时,由于被错误分类的样本较少,均质性模型和异质性模型之间的预测性能并没有改善。然而,当使用机器学习预测分数作为权重来向物种分布模型提供分类过程信息时,精度提高了70%。因此,我们建议在数据中包含较多错误分类样本时使用多项回归来建模分类过程的变异。而在数据中包含相对较少错误分类样本时,应使用机器预测分数。

作者:Kwaku Peprah Adjei, Robert B. O'Hara, Wouter Koch, Anders Finstad

论文ID:2305.01989

分类:Applications

分类简称:stat.AP

提交时间:2023-05-04

PDF 下载: 英文版 中文版pdf翻译中