STEREO:从科学论文中提取实验统计、条件和主题的流程

摘要:自动统计信息提取与非APA写作风格 具体实施时,统计结果的常见写作风格是美国心理协会(APA)的建议样式。然而,实际中,由于报告并不完全遵循APA样式或尽管强制要求但未报告参数的问题,写作风格各不相同。此外,统计数据不是孤立地报告,而是在研究的实验条件和整体主题的背景下报告的。我们通过提出一种基于主动包装器诱导和无监督方面提取的灵活流程STEREO来解决这些挑战。我们将该流程应用于CORD-19数据集中的超过100,000份文档。只需要对语料库的0.25%(约500份文档)进行学习,就可以学习到覆盖CORD-19文本中95%句子的统计信息提取规则。统计信息提取在符合APA规范时几乎具有100%的准确度,在非APA写作风格时准确度为95%。总共,我们能够提取出11.3万个报告的统计信息,其中只有不到1%符合APA规范。我们可以在符合APA规范的报告中提取46%的正确条件(非APA报告为30%)。在APA风格的统计信息中,主题提取的最佳模型准确度为75%(非APA准则为73%)。我们得出结论,STEREO是自动统计信息提取和未来科学论文分析发展的良好基础。特别是提取非APA准则的报告十分重要,它可以用于向作者提供反馈,告知有什么遗漏的和需要改变的地方。

作者:Steffen Epp, Marcel Hoffmann, Nicolas Lell, Michael Mohr, Ansgar Scherp

论文ID:2103.14124

分类:Digital Libraries

分类简称:cs.DL

提交时间:2022-12-09

PDF 下载: 英文版 中文版pdf翻译中