降质文本图像的OCR质量
摘要:预测受损文本图像的OCR错误率的能力可以帮助在OCR成功率与人工纠正错误成本之间做出决策。本文描述了使用标准OCR引擎(Adobe Capture)对受损文本图像进行OCR的研究。选择了洛斯阿拉莫斯国家实验室档案中的文档进行研究。通过以控制的方式向完美文档引入噪声,我们展示了如何通过噪声的性质预测OCR的质量。初步结果表明,简单的噪声模型可以很好地预测OCR错误的数量。
作者:Roger T. Hartley, Kathleen Crumpton
论文ID:cs/9902009
分类:Digital Libraries
分类简称:cs.DL
提交时间:2007-05-23