使用数据定向缩放进行结构化计算的通用决策框架以处理海量相似性矩阵
摘要:大规模数据集的处理变得不可行,因此需要将计算顺序制定为一个决策问题。我们设计了这个顺序,使得部分计算有价值,并且提前停止可以得到有用的结果。我们的方法包括两个相关的工具:一个决策框架选择计算顺序,一个仿真框架用于估计未计算的部分。我们将此方法应用于计算相似矩阵的问题中,计算成本随对象数量的增加呈二次增长。在观察到相似性之前进行推理会带来困难,因为没有自然的空间,所以比较困难。我们通过引入一种计算上方便的多维缩放形式来解决这个问题,我们称之为“数据方向缩放”。可以通过大幅减少计算量来实现高质量的估计,而且可以扩展到非常大的矩阵。我们将这种方法应用于人群遗传相似性评估的实际问题中。在决策制定中使用统计推理来处理大规模问题,有望成为将统计方法应用于大数据的重要工具。
作者:Daniel John Lawson and Niall M Adams
论文ID:1403.4054
分类:Computation
分类简称:stat.CO
提交时间:2014-03-18