主题建模中的主题不确定性可视化
摘要:主题词云成为自然语言处理方法(如主题建模)结果呈现的标准工具。它们展示了最重要的单词,单词大小通常与主题中单词的相关性成比例。在潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型中,词云是主题内单词权重向量的图形展示。这些向量是基于特定语料库的统计过程的结果。因此,它们受到来自不同来源的不确定性的影响,如样本选择、优化算法中的随机成分或参数设置。本文介绍了一种新方法,用于展示包含此类不确定性信息的词云,并通过将LDA模型应用于会议摘要进行了说明。
作者:Peter Winker
论文ID:2302.06482
分类:Computation
分类简称:stat.CO
提交时间:2023-02-14