WYTIWYR:基于多模态输入的用户意图感知框架用于可视化检索
摘要:从大型文献库中检索图表是一项基本任务,可以为诸多应用程序(如可视化推荐)带来益处。检索结果预期符合明确的视觉属性(如图表类型、色彩映射)和隐含的用户意图(如设计风格、上下文信息),这些意图因应用场景而异。然而,现有基于示例的图表检索方法建立在难以解释的非解耦和低级视觉特征上,而基于定义的方法受到难以扩展的预定义属性的限制。在这项工作中,我们提出了一个新的框架,名为WYTIWYR(What-You-Think-Is-What-You-Retrieve),它将用户意图整合到图表检索过程中。该框架包括两个阶段:首先,注释阶段解开位图查询图表中的视觉属性;其次,检索阶段嵌入用户的意图,并使用自定义文本提示和查询图表来回忆目标检索结果。我们开发了一个原型WYTIWYR系统,利用对比语言-图像预训练(CLIP)模型实现零样本分类,并在从互联网爬取的大型文献库中对原型进行测试。进行了定量实验证明、案例研究和定性访谈。结果表明我们提出的框架的可用性和有效性。
作者:Shishi Xiao, Yihan Hou, Cheng Jin, Wei Zeng
论文ID:2304.06991
分类:Information Retrieval
分类简称:cs.IR
提交时间:2023-04-17