降质文本图像的OCR质量-arXiv论文预印本中文版

降质文本图像的OCR质量

摘要：预测受损文本图像的OCR错误率的能力可以帮助在OCR成功率与人工纠正错误成本之间做出决策。本文描述了使用标准OCR引擎（Adobe Capture）对受损文本图像进行OCR的研究。选择了洛斯阿拉莫斯国家实验室档案中的文档进行研究。通过以控制的方式向完美文档引入噪声，我们展示了如何通过噪声的性质预测OCR的质量。初步结果表明，简单的噪声模型可以很好地预测OCR错误的数量。

作者：Roger T. Hartley, Kathleen Crumpton

论文ID：cs/9902009

分类：Digital Libraries

分类简称：cs.DL

提交时间：2007-05-23

PDF 下载： 英文版中文版pdf翻译中