不可靠元素的可靠版本:使用配置隐藏马尔可夫模型估计从印刷版本到电子书的转换
摘要:使用轮廓隐藏马尔可夫模型(Profile Hidden Markov Model,简称PHMM),这是生物序列分析中常用的模型,可以用于模拟从书籍、杂志和其他印刷材料中转录的相关字符序列。本文记录了一种PHMM的应用:自动从不同的印刷版中生成电子书版。生成的电子书几乎具备出版商准备电子书的所有期望属性,包括准确的转录和无印刷残留物(如行尾连字符和页眉)的存在。这种技术对于需要以易于访问的格式获取图书的读者和图书馆来说具有特殊的好处,本文使用七本19世纪小说进行了演示。
作者:A. B. Riddell
论文ID:2204.01638
分类:Digital Libraries
分类简称:cs.DL
提交时间:2022-07-14