学习实值和结构化数据的一类新度量方法

摘要:使用一种新的距离度量方法,可以在数据挖掘的各个阶段,包括探索性数据分析、学习和结果解释中使用。这些新的距离函数统一和概括了一些常用的度量方法,如集合上的Jaccard距离和bag距离,向量空间上的曼哈顿距离,以及可积函数上的Marczewski-Steinhaus距离。我们证明了这些新的度量方法是完备的,并展示了它们与概率分布的$f$-divergences之间的有用关系。为了进一步扩展我们的方法到结构化对象,如概念层次和本体,我们引入了基于信息论的度量方法,用于根据固定概率分布绘制的有向无环图。我们进行了实证研究,以展示新的度量方法的直观解释和在实值、高维、结构化数据上的有效性。广泛的比较评估表明,新的度量方法优于传统的数据挖掘中使用的多个相似性和非相似性函数,包括Minkowski家族、分数$L^p$家族、两个$f$-divergences、余弦距离和两个相关系数。最后,我们认为这种新的度量方法特别适用于基于距离的学习中的高维和结构化数据的快速处理。

作者:Ruiyu Yang, Yuxiang Jiang, Scott Mathews, Elizabeth A. Housworth, Matthew W. Hahn, Predrag Radivojac

论文ID:1603.06846

分类:Machine Learning

分类简称:stat.ML

提交时间:2018-04-24

PDF 下载: 英文版 中文版pdf翻译中