扩展SDSS批量查询系统至国家虚拟天文台网络

摘要:Sloan数字天文巡天科学数据库接近2TB。虽然绝大多数查询通常在几秒或几分钟内执行,但由于一小部分查询需要花费几小时或几天的时间才能完成,因此这种交互执行时间可能会不成比例地增加;这些查询要么需要对最大的表进行非索引扫描,要么要求非常大的结果集。为了应对这个问题,我们添加了一个多队列的作业提交和跟踪系统。从网络中传输非常大的结果集是另一个严重的问题。统计数据表明,很多数据传输是不必要的;用户更愿意将结果存储在本地,以便进行进一步的交叉匹配和过滤。为了允许本地分析,我们实施了一个系统,在门户网站上为用户提供自己的个人数据库(MyDB)。用户可以将数据传输到自己的MyDB中,然后进行进一步的分析,然后再提取到自己的计算机中。 我们打算将MyDB和异步查询的想法扩展到多个NVO节点。这意味着需要分布式开发一些已经在SDSS批量查询系统(CasJobs)中针对单个节点进行了演示的多个功能。异步查询的推广需要一定形式的MyDB存储以及每个节点上的工作流跟踪服务和节点之间的协调策略。

作者:Maria A. Nieto-Santisteban, William O'Mullane, Jim Gray, Nolan Li, Tamas Budavari, Alexander S. Szalay, Aniruddha R. Thakar

论文ID:cs/0403017

分类:Databases

分类简称:cs.DB

提交时间:2007-05-23

PDF 下载: 英文版 中文版pdf翻译中