使用马尔可夫边界方法进行可解释和可推广的特征选择
摘要:在模型中选择的特征的质量决定了模型的预测能力和泛化能力。银行中的机器学习(ML)模型考虑了大量常相关或依赖的特征。这些特征的加入可能会影响模型的稳定性,而先前的特征筛选可以提高模型的长期性能。特征的马尔可夫边界(MB)是保证其他潜在预测因素不影响目标变量的最小特征集,同时保证最大的预测准确性。在特征的高斯性和它们之间的线性关系的假设下,确定马尔可夫边界是直接的。本文概述了在关系为非线性且预测因子为混合数据类型的结构化数据中识别马尔可夫边界所涉及的常见问题。我们提出了一种多组前向后向选择策略,不仅处理连续特征,还解决了混合数据设置中MB识别的一些问题,并在模拟和真实数据集上展示了其能力。
作者:Anwesha Bhattacharyya, Yaqun Wang, Joel Vaughan, and Vijayan N. Nair
论文ID:2307.14327
分类:Applications
分类简称:stat.AP
提交时间:2023-07-27