时序支持在顺序模式挖掘中的正则表达式

摘要:关于顺序模式发现的经典算法返回数据库中存在的所有频繁序列,但通常只有少数对用户而言是有意思的。基于正则表达式(RE)的语言已被提出,以将频繁序列限制为满足用户指定约束条件的序列。尽管支持序列被计算为满足模式的数据序列数与数据库中数据序列总数之比,但一旦正则表达式起作用,就需要新的支持概念方法。例如,用户可能对计算RE的整体支持以及特定模式的支持感兴趣。此外,当项目经常更新时,传统的顺序模式挖掘中计算支持的方式可能会导致不正确(或至少是不完整)的结论。如果我们对分类顺序模式感兴趣,问题将变得更复杂。鉴于以上情况,在本文中,我们建议重新审视顺序模式挖掘中经典的支持概念,引入正则表达式的时间支持概念,该概念直观地定义为满足目标模式的序列数与可能匹配该模式的序列总数的比值,其中模式被定义为复杂项上的RE(即不仅仅是项标识符,还包括属性和函数)。

作者:Leticia Gomez, Bart Kuijpers, Alejandro Vaisman

论文ID:0811.3691

分类:Databases

分类简称:cs.DB

提交时间:2008-11-25

PDF 下载: 英文版 中文版pdf翻译中