基于神经网络的艺术品跨模态搜索与检索-arXiv论文预印本中文版

基于神经网络的艺术品跨模态搜索与检索

摘要：为艺术品图像，尤其是绘画，创建一个智能搜索和检索系统对于记录文化遗产、促进更广泛的公众参与以及推进艺术分析和解释至关重要。Visual-Semantic Embedding（VSE）网络是用于信息检索的深度学习模型，其学习文本和视觉数据的联合表示，实现了1）跨模态搜索和检索任务，如图像到文本和文本到图像的检索；以及2）关系聚焦的检索，以捕捉实体关系并提供更具上下文相关性的搜索结果。尽管VSE网络在跨模态信息检索方面发挥了重要作用，但其在绘画数据集（如ArtUK）中的应用尚未得到探索。本文介绍了基于VSE的跨模态搜索引擎BoonArt，用户可以使用文本查询搜索图像，并在使用图像查询时获取相应的图像文本描述。使用ArtUK数据集评估了BoonArt的性能。实验评估结果显示，BoonArt在图像到文本检索方面达到了97％的@10召回率，文本到图像检索方面达到了97.4％的@10召回率。通过弥合文本和视觉模态之间的差距，BoonArt相比于传统的搜索引擎，如ArtUK网站提供的搜索引擎，提供了更好的搜索性能。BoonArt可以用于处理其他艺术品数据集。

作者：Yan Gong, Georgina Cosma, Axel Finke

论文ID：2307.14244

分类：Multimedia

分类简称：cs.MM

提交时间：2023-07-27

PDF 下载： 英文版中文版pdf翻译中