基于压缩和签名的快速估计Levenshtein距离以识别文档相似性

摘要:识别文档相似性具有许多应用,例如源代码分析或抄袭检测。然而,识别相似性并非易事,可能具有时间复杂性。例如,Levenshtein距离是定义两个文档相似性的常见度量标准,但其具有二次运行时间,使得对于大型文档来说并不实际,其中大型指的是几百千字节的文档。本文提出了一个允许估算Levenshtein距离的新概念:算法首先使用用户定义的压缩比将文档压缩为签名(类似于哈希值)。然后可以比较签名(同时需要一些约束条件),其结果就是估算的Levenshtein距离。我们的评估结果显示了在运行时间效率和准确性方面的有希望的结果。此外,我们引入了一个显著性分数,使得检查人员可以设置阈值并识别相关文档。

作者:Peter Coates and Frank Breitinger

论文ID:2307.11496

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-07-24

PDF 下载: 英文版 中文版pdf翻译中