数据集搜索:一项调查

摘要:从数据中生成价值需要找到、访问和理解数据集的能力。目前有许多努力正在推动数据共享和重用,从科学出版商要求作者在提交稿件时同时提交数据,到数据市场、开放数据门户和数据社区。最近,谷歌推出了一项数据集搜索服务的测试版,允许用户通过关键词查询在各种在线存储库中找到存储的数据。这些发展预示着一个新兴的研究领域——数据集搜索或检索,广泛包括帮助用户将数据需求与数据集合匹配的框架、方法和工具。本文回顾了数据集检索领域的研究和商业系统的现状,并指出了数据集搜索作为一个独立的研究领域具有独特挑战和方法的原因,并强调了开放问题。我们还研究了数据集搜索所涉及的相关领域的方法和实现,包括信息检索、数据库、以实体为中心的和表格式搜索,以确定解决这些开放问题的可能路径,以及推动该领域发展的即时下一步。

作者:Adriane Chapman and Elena Simperl and Laura Koesten and George Konstantinidis and Luis-Daniel Ib''a~nez-Gonzalez and Emilia Kacprzak and Paul Groth

论文ID:1901.00735

分类:Databases

分类简称:cs.DB

提交时间:2022-11-10

PDF 下载: 英文版 中文版pdf翻译中