开放研究数据的聚类分析及复制元数据的案例-arXiv论文预印本中文版

开放研究数据的聚类分析及复制元数据的案例

摘要：研究数据通常在期刊发表后发布，以便进行结果验证和可重复性。出于这个原因，研究传播基础设施通常支持来自各个学科的多样化数据集，包括表格数据、程序代码和音频-视频文件。元数据，或者数据关于数据，对于正确记录研究输出并使其合理是至关重要的。本研究旨在为研究输出的元数据发展提供讨论，并通过开展探索性分析来确定研究数据集如何基于研究人员有机地共同提交进行聚类。我使用哈佛大学Dataverse研究数据库中超过40,000个数据集的内容作为聚类分析的样本。我发现，大多数聚类由单一类型的数据集形成，而在样本的其余部分中，无法识别出分散显著的聚类。为结果解释，我使用了DataCite所采用的元数据标准，DataCite是一家记录学术记录的领先组织，并将现有的资源类型映射到我的结果。大约65％的样本可以用单一类型的元数据（如数据集、软件或报告）描述，而其余部分则需要聚合元数据类型。虽然DataCite支持一种名为“Collection”的聚合类型，但我认为大量数据集，特别是那些包含数据和代码文件（约占样本的20％），更准确地描述为回溯资源元数据类型。这种资源类型对于促进研究的可重复性特别有用。

作者：Ana Trisovic

论文ID：2305.17067

分类：Digital Libraries

分类简称：cs.DL

提交时间：2023-05-29

PDF 下载： 英文版中文版pdf翻译中