学习自未经筛选的正则表达式

摘要:基于有限数据集的学习正则表达式的工作已有不少成果。在特定领域中,这种方法非常成功。然而,学习这些表达式需要大量时间,并且在面对脏数据时,生成的表达式可能会变得非常复杂或不准确。面对需要匹配大量值的情况,手动编写正则表达式变得不太理想。 作为一种替代方案,我们提议从公共存储库中挖掘大量手动编写但未经整理的正则表达式来进行学习。这种方法的优势在于我们能够从一组字符串中提取显著特征,并且特征工程的开销有限。由于这组正则表达式涵盖了多个应用领域,我们预计它们具有广泛的适用性。 为了展示我们方法的潜在有效性,我们使用从正则表达式语料库中提取的正则表达式训练一个语义类型分类的模型。虽然我们的方法的结果总体上不及最先进的方法,但我们的特征提取代码的大小相对更小一个数量级,并且我们的模型在某些类别上优于现有的流行方法。我们还展示了使用未经整理的正则表达式进行无监督学习的可能性。

作者:Michael J. Mior

论文ID:2206.06747

分类:Databases

分类简称:cs.DB

提交时间:2023-06-26

PDF 下载: 英文版 中文版pdf翻译中