用对应分析而非潜在语义分析改进信息检索-arXiv论文预印本中文版

用对应分析而非潜在语义分析改进信息检索

摘要：LSA和CA方法在信息检索中都利用奇异值分解（SVD）进行降维。理论上，LSA的结果显示文档和术语之间的关联以及边际效应；相比之下，CA只关注文档和术语之间的关联。边际效应通常与信息检索无关，因此从理论角度来看，CA更适用于信息检索。本文对LSA和CA进行了实证比较。对原始文档-术语矩阵的元素进行加权，并调整奇异值的加权指数，以提高LSA的性能。我们探讨了这两种加权方法是否也能提高CA的性能。此外，我们比较了LSA和CA的最佳奇异值加权指数，以确定LSA中的初始维度对应什么。对四个实证数据集的结果表明，CA始终表现优于LSA。对原始数据矩阵进行加权可以改善CA的性能；然而，这取决于数据并且改进效果很小。调整奇异值加权指数通常可以改善CA的性能；然而，改进的程度取决于数据集和维数。一般来说，CA需要比LSA更大的奇异值加权指数才能获得最佳性能。这表明CA比LSA更加注重初始维度，因此，边际在LSA的初始维度中起着重要作用。

作者：Qianqian Qi, David J. Hessen, Peter G. M. van der Heijden

论文ID：2303.08030

分类：Information Retrieval

分类简称：cs.IR

提交时间：2023-03-15

PDF 下载： 英文版中文版pdf翻译中