降质文本图像的OCR质量

摘要:预测受损文本图像的OCR错误率的能力可以帮助在OCR成功率与人工纠正错误成本之间做出决策。本文描述了使用标准OCR引擎(Adobe Capture)对受损文本图像进行OCR的研究。选择了洛斯阿拉莫斯国家实验室档案中的文档进行研究。通过以控制的方式向完美文档引入噪声,我们展示了如何通过噪声的性质预测OCR的质量。初步结果表明,简单的噪声模型可以很好地预测OCR错误的数量。

作者:Roger T. Hartley, Kathleen Crumpton

论文ID:cs/9902009

分类:Digital Libraries

分类简称:cs.DL

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中