潜在语义分析揭示隐藏结构
摘要:潜在语义分析(LSA)是一种广为人知的信息检索方法。它也被应用作认知处理和词义习得的模型。LSA的双重重要性来自于其能够通过上下文调节单词的意义,成功处理多义性和同义词。该方法成功的原因尚不清楚。我们提出,该方法之所以有效是因为它检测到了项-文档矩阵中的底层块结构(块对应主题)。在实际情况中,由于扰动,这种块结构是隐藏的。我们认为,对LSA的正确解释应该在奇异向量的结构中寻找,而不是奇异值的特征。利用Perron-Frobenius理论,我们展示了不相交文档块的存在,通过向量中与一个块的文档对应的符号相同的条目,并且其他位置都是零。在几乎不相交的块的情况下,扰动理论表明,如果扰动很小,领先向量中的零将被小数字(伪零)替换。由于每个块的奇异值的大小可能非常不同,它们的顺序并不反映块的顺序。当块的范数相似时,LSA可以很好地工作,但我们提出,当各个主题的大小不同时,应该用一种选择每个块的扰动Perron向量的方法来替代常规的选择前k个奇异三元组的程序(k为块的数量)。
作者:Juan C. Valle-Lisboa (1), Eduardo Mizraji (1) ((1) Seccion Biofisica, Facultad de Ciencias, Universidad de la Republica)
论文ID:cs/0607015
分类:Information Retrieval
分类简称:cs.IR
提交时间:2007-05-23