面向OCR后校正的优化众包策略

摘要:历史文档的数字化是许多数字人文项目中的一项具有挑战性的任务。一种常用的数字化方法是将文档扫描成图像,然后使用光学字符识别(OCR)算法将图像转换为文本。然而,OCR处理历史文档的结果通常不准确,需要后续的错误纠正。本研究调查了如何利用众包来纠正历史文本集合中的OCR错误,以及在不同情景和各种研究目标下哪种众包方法最有效。在亚马逊Mechanical Turk平台上进行了一系列不同微任务结构和文本长度的实验,共有753名工作者参与其中。工作者需要修复所选择历史文本中的OCR错误。为了分析结果,设计了新的准确度和效率指标。分析结果表明,在准确度方面,最佳文本长度是中等(段落大小),而最佳实验结构是两阶段的扫描图像。在效率方面,使用较长的文本在单阶段结构中且无图像的情况下取得了最好的结果。本研究为研究者提供了关于如何构建用于OCR后纠正的最佳众包任务的实际建议。所开发的方法还可以用于创建自动OCR后纠正的黄金标准历史文本。这是首次系统地调查各种因素对基于众包的OCR后纠正的影响,并提出了一种最佳策略。

作者:Omri Suissa, Avshalom Elmalech, Maayan Zhitomirsky-Geffet

论文ID:2106.06831

分类:Human-Computer Interaction

分类简称:cs.HC

提交时间:2023-08-01

PDF 下载: 英文版 中文版pdf翻译中