通过自动实体识别解禁殖民档案
摘要:殖民档案引起了各个角度的日益关注,因为它们包含了历史上被边缘化的人民的痕迹。然而,就像大多数档案一样,由于长期存在的障碍,它们仍然难以访问。在这里,我们重点关注其中一个障碍:在历史研究资料中存在的偏见,比如人名索引,这些索引至今仍在使用。在殖民档案中,索引可能通过遗漏对历史上被边缘化的人的提及来保持沉默。为了克服这种局限性并扩大现有查找工具的范围,我们提出使用自动实体识别。为此,我们提供了一个适用于此目的的注释类型,并将其应用于荷兰东印度公司(VOC)的殖民档案中。我们发布了一个近70,000个注释的语料库作为一个共享任务,并使用最先进的神经网络模型提供了基准。我们的工作意在促进对(殖民)档案的广泛接触的进一步贡献,将自动化集成为实现这一目标的可能手段。
作者:Mrinalini Luthra, Konstantin Todorov, Charles Jeurgens, Giovanni Colavizza
论文ID:2210.02194
分类:Digital Libraries
分类简称:cs.DL
提交时间:2022-10-06