关于关系数据的可交换建模:检查稀疏性、训练-测试分割和稀疏可交换泊松矩阵分解
摘要:通过学习双分图上的概率分布参数,可以将各种机器学习任务(例如矩阵分解、主题建模和特征分配)视为机器学习任务。最近,引入了一种新型网络模型,稀疏可交换图,以解决传统统计网络模型的一些重要问题,尤其是无法建模稀疏性(渐近意义上)。本文解释了从这项工作中得出的一些实用见解。我们首先展示了如何通过使用网络子采样来检查稀疏性是否与建模给定(固定大小)数据集相关,并识别稀疏性的简单特征。我们讨论了(稀疏)可交换子采样理论对测试-训练数据集分割的影响;我们认为常见方法可能导致偏倚的结果,并提出了一种有原则的替代方法。最后,我们以稀疏可交换泊松矩阵分解为案例进行研究。特别地,我们展示了如何将均值场变分推断适应于稀疏可交换设置,使我们能够将推断扩展到大规模数据集。
作者:Victor Veitch, Ekansh Sharma, Zacharie Naulet, and Daniel M. Roy
论文ID:1712.02311
分类:Machine Learning
分类简称:stat.ML
提交时间:2017-12-07