用对应分析而非潜在语义分析改进信息检索

摘要:LSA和CA方法在信息检索中都利用奇异值分解(SVD)进行降维。理论上,LSA的结果显示文档和术语之间的关联以及边际效应;相比之下,CA只关注文档和术语之间的关联。边际效应通常与信息检索无关,因此从理论角度来看,CA更适用于信息检索。 本文对LSA和CA进行了实证比较。对原始文档-术语矩阵的元素进行加权,并调整奇异值的加权指数,以提高LSA的性能。我们探讨了这两种加权方法是否也能提高CA的性能。此外,我们比较了LSA和CA的最佳奇异值加权指数,以确定LSA中的初始维度对应什么。 对四个实证数据集的结果表明,CA始终表现优于LSA。对原始数据矩阵进行加权可以改善CA的性能;然而,这取决于数据并且改进效果很小。调整奇异值加权指数通常可以改善CA的性能;然而,改进的程度取决于数据集和维数。一般来说,CA需要比LSA更大的奇异值加权指数才能获得最佳性能。这表明CA比LSA更加注重初始维度,因此,边际在LSA的初始维度中起着重要作用。

作者:Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden

论文ID:2303.08030

分类:Information Retrieval

分类简称:cs.IR

提交时间:2023-03-15

PDF 下载: 英文版 中文版pdf翻译中