过去网络上的大数据科学-arXiv论文预印本中文版

过去网络上的大数据科学

摘要：网络档案保留了独特且具有历史价值的信息。它们记录了过去事件和记忆，包括记者、政治家和普通人对各种主题的见证和观点。因此，历史学家和社会学家等研究者从互联网问世初期开始就将网络档案作为信息来源，来了解最近的过去。从网络档案中提取知识的典型方式是使用搜索功能查找和分析历史内容。但是，当分析复杂主题时，由于网络档案保存的数据量巨大，这个过程可能会变得缓慢且肤浅。大数据科学工具可以处理这一量级的数据，使研究者能够自动从存档数据中提取有意义的知识。这些知识不仅有助于解释过去，还通过对事件和行为进行计算建模来预测未来。目前，有大量的大数据工具、机器学习框架和深度学习算法，显著提高了对文本、图像和音频等多种计算任务的可扩展性和性能。网络档案已经利用这些技术的广泛选择，为用户提供更强大的工具来探索和开发历史数据。本章介绍了几个这些工具的示例，并概述了它们在支持网络档案集合的纵向研究中的应用。

作者：Miguel Costa, Julien Masan`es

论文ID：2108.01605

分类：Digital Libraries

分类简称：cs.DL

提交时间：2021-08-04

PDF 下载： 英文版中文版pdf翻译中