加权朴素贝叶斯模型用于半结构化文档分类

摘要:基于贝叶斯分类的半结构化数据监督分类的形式模型及其分类任务中文档结构的集成。我们定义了非结构化数据出现的结构上下文,并推导了一个递归公式,其中参数用于对结构元素的贡献进行加权。通过实现这个形式模型的简化版本来进行文本文档分类实验。初步结果表明,在特定的加权策略下,与简单的多项式朴素贝叶斯分类器的表现相比,单词出现的结构上下文对分类结果有显著影响。所提出的实现在Reuters-21578数据集上与SVM分类器竞争,无论是否与结构组件的分割相关。这些结果鼓励探索针对该模型的可接受加权策略的学习,特别是增强策略。

作者:Pierre-Franc{c}ois Marteau (VALORIA), Gilbas M''enier (VALORIA), Eugen Popovici (VALORIA)

论文ID:0901.0358

分类:Information Retrieval

分类简称:cs.IR

提交时间:2009-01-06

PDF 下载: 英文版 中文版pdf翻译中