高维特征的贝叶斯分类和回归
摘要:使用大量特征进行回归和分类问题的挑战 特征的高维情况有两种情况。一种是当高维度的测量数据可用时,例如通过微阵列技术产生的基因表达数据。出于计算或其他原因,人们在对此类数据建模时可能仅选择一小部分特征,通过观察特征与训练数据中响应变量的相关性等度量来确定特征的相关性。尽管这是非常常见的方法,但此过程会使响应变量的可预测性似乎比实际情况要高。在第二章中,我们提出了一种贝叶斯方法来避免这种选择偏差,并应用于朴素贝叶斯模型和混合模型。 当考虑高阶交互作用时,特征的高维度也会出现。考虑到的阶数越高,参数的数量将呈指数级增长。在第三章中,我们提出了一种将一组参数压缩为一个参数的方法,通过利用从高阶交互作用中得出的许多预测变量在所有训练样本中具有相同值的事实。在考虑最高可能阶数之前,压缩参数的数量可能已经收敛。我们将这种压缩方法应用于逻辑序列预测模型和逻辑分类模型。 我们在两章中使用模拟数据和真实数据来测试我们的方法。
作者:Longhai Li
论文ID:0709.2936
分类:Machine Learning
分类简称:stat.ML
提交时间:2007-09-20