基于神经网络的艺术品跨模态搜索与检索
摘要:为艺术品图像,尤其是绘画,创建一个智能搜索和检索系统对于记录文化遗产、促进更广泛的公众参与以及推进艺术分析和解释至关重要。Visual-Semantic Embedding(VSE)网络是用于信息检索的深度学习模型,其学习文本和视觉数据的联合表示,实现了1)跨模态搜索和检索任务,如图像到文本和文本到图像的检索;以及2)关系聚焦的检索,以捕捉实体关系并提供更具上下文相关性的搜索结果。尽管VSE网络在跨模态信息检索方面发挥了重要作用,但其在绘画数据集(如ArtUK)中的应用尚未得到探索。本文介绍了基于VSE的跨模态搜索引擎BoonArt,用户可以使用文本查询搜索图像,并在使用图像查询时获取相应的图像文本描述。使用ArtUK数据集评估了BoonArt的性能。实验评估结果显示,BoonArt在图像到文本检索方面达到了97%的@10召回率,文本到图像检索方面达到了97.4%的@10召回率。通过弥合文本和视觉模态之间的差距,BoonArt相比于传统的搜索引擎,如ArtUK网站提供的搜索引擎,提供了更好的搜索性能。BoonArt可以用于处理其他艺术品数据集。
作者:Yan Gong, Georgina Cosma, Axel Finke
论文ID:2307.14244
分类:Multimedia
分类简称:cs.MM
提交时间:2023-07-27