潜在语义分析揭示隐藏结构-arXiv论文预印本中文版

潜在语义分析揭示隐藏结构

摘要：潜在语义分析（LSA）是一种广为人知的信息检索方法。它也被应用作认知处理和词义习得的模型。LSA的双重重要性来自于其能够通过上下文调节单词的意义，成功处理多义性和同义词。该方法成功的原因尚不清楚。我们提出，该方法之所以有效是因为它检测到了项-文档矩阵中的底层块结构（块对应主题）。在实际情况中，由于扰动，这种块结构是隐藏的。我们认为，对LSA的正确解释应该在奇异向量的结构中寻找，而不是奇异值的特征。利用Perron-Frobenius理论，我们展示了不相交文档块的存在，通过向量中与一个块的文档对应的符号相同的条目，并且其他位置都是零。在几乎不相交的块的情况下，扰动理论表明，如果扰动很小，领先向量中的零将被小数字（伪零）替换。由于每个块的奇异值的大小可能非常不同，它们的顺序并不反映块的顺序。当块的范数相似时，LSA可以很好地工作，但我们提出，当各个主题的大小不同时，应该用一种选择每个块的扰动Perron向量的方法来替代常规的选择前k个奇异三元组的程序（k为块的数量）。

作者：Juan C. Valle-Lisboa (1), Eduardo Mizraji (1) ((1) Seccion Biofisica, Facultad de Ciencias, Universidad de la Republica)

论文ID：cs/0607015

分类：Information Retrieval

分类简称：cs.IR

提交时间：2007-05-23

PDF 下载： 英文版中文版pdf翻译中