LAGOS-AND:一个用于学术作者姓名消歧的大型黄金标准数据集

摘要:使用本文中介绍的方法,利用权威的学术资源ORCID和DOI,我们提出了一种自动构建大规模标记的数据集的方法,用于解决学术界中作者歧义问题。利用这种方法,我们构建了LAGOS-AND数据集,分别用于基于聚类和基于分类的作者姓名消歧研究。我们的LAGOS-AND数据集与现有数据集有很大的区别。数据集的初始版本(v1.0,在2021年2月发布)包括由798K个独特作者所撰写的750万次引用(LAGOS-AND-BLOCK)和近100万个实例(LAGOS-AND-PAIRWISE)。在构建数据集的过程中,我们通过比对作者姓名在三个文献数据库PubMed、MAG和Semantic Scholar中的官方姓氏与ORCID页面上显示的作者的姓氏,揭示了姓氏的变异程度。此外,我们还评估了几种基准消歧方法以及MAG的作者ID系统在我们的数据集上的效果,并发现了一些有趣的结果。我们希望这些数据集和研究结果能为未来的研究带来新的见解。代码和数据集已公开提供。

作者:Li Zhang, Wei Lu, Jinqing Yang

论文ID:2104.01821

分类:Digital Libraries

分类简称:cs.DL

提交时间:2022-07-15

PDF 下载: 英文版 中文版pdf翻译中