噪声文献参考的自动解析

摘要:NASA天体物理数据系统(NASA Astrophysics Data System)使用的系统,用于识别通过OCR方法从扫描的文章页面中获得的文献参考资料,并与文献数据库中的记录相匹配。我们分析了生成噪声参考资料的过程,并得出结论:纠正OCR结果、解析纠正的字符串并与数据库进行匹配的三步过程提供的结果不令人满意。相反,我们提出了一种方法,可以在控制下合并纠正、解析和匹配,受到依赖语法的启发。我们还报告了我们采用的各种启发式方法提高回溯的有效性。

作者:Markus Demleitner, Michael Kurtz, Alberto Accomazzi, G"unther Eichhorn, Carolyn S. Grant, Steven S. Murray

论文ID:cs/0401028

分类:Digital Libraries

分类简称:cs.DL

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中