减少一组正则表达式并分析领域特定统计报告的差异
摘要:自动提取科学论文的关键信息是必要的,因为每天发表的科学论文数量巨大,无法手动审查每一篇。本文中,我们研究了一种使用正则表达式从科学论文中提取统计数据的工具STEREO。通过将一个已有的正则表达式包含算法应用于我们的用例,我们将STEREO中使用的正则表达式数量减少了约33.8%。我们从简化后的规则集中揭示了常见的模式,可用于创建新规则。我们还将之前在生命科学和医学领域训练过的STEREO应用于一个新的科学领域,即人机交互(HCI),并重新评估它。根据我们的研究,HCI领域的统计数据与医学领域的统计数据相似,尽管在HCI领域找到的符合APA标准的统计数据的百分比较高。此外,我们比较了对PDF和LaTeX源文件的提取,发现LaTeX在提取方面更可靠。
作者:Tobias Kalmbach, Marcel Hoffmann, Nicolas Lell, Ansgar Scherp
论文ID:2211.13632
分类:Digital Libraries
分类简称:cs.DL
提交时间:2023-03-28