谁是填补方法大赛的冠军?我们为Miss BooPF投票
摘要:缺失数据是在收集大量数据时常见的问题,已提出几种插补技术来解决这个问题。除了经典方法如MICE外,应用机器学习技术也很诱人。在这里,最近提出的missForest插补方法在完全随机缺失方案下的各种缺失率下显示出高的插补准确性。它的核心是基于分类和回归的随机森林。在本文中,我们研究了这种方法是否可以通过其他方法如随机梯度树提升方法、C5.0算法或修改的随机森林程序来增强。特别地,建议在随机森林协议中采用其他重采样策略。在广泛的模拟研究中,我们分析了它们在连续型、分类型和混合型数据上的性能。其中,MissBooPF,一种将随机梯度树提升方法和参数化自助法随机森林方法相结合的组合方法,显示出很大的潜力。最后,进行了关于信用信息和Facebook数据的实证分析。
作者:Burim Ramosaj and Markus Pauly
论文ID:1711.11394
分类:Machine Learning
分类简称:stat.ML
提交时间:2017-12-01