教育数据挖掘中特征选择技术的研究

摘要:教育数据挖掘是一个新兴的研究领域,教育领域中采用数据挖掘概念来提取有关学生学习过程中行为的有用信息。在这个教育数据挖掘中,需要进行特征选择以生成候选变量的子集。由于特征选择影响了性能模型的预测准确性,因此有必要详细研究特征选择技术与学生预测性能模型的有效性。因此,本研究旨在通过采用各种经过筛选的特征选择技术,在数据挖掘中调查具有最少基数的最相关子集特征,以实现高预测性能,并评估六种经过筛选的特征选择算法的质量。这些特征选择算法根据基于朴素贝叶斯算法生成的F-measure值和接收器操作特性(ROC)值来评估。我们在六种特征选择算法上进行的比较研究揭示了最佳方法以及特征子集的最佳维数。随后,我们通过采用不同的分类器模型对特征选择方法进行基准测试。本研究的结果有效支持一个广为人知的事实,即存在最少数量的特征时,预测准确性会提高。预期的结果显示,在学生预测性能模型的训练和分类阶段都可以减少计算时间和构建成本。

作者:M. Ramaswami, R. Bhaskaran

论文ID:0912.3924

分类:Databases

分类简称:cs.DB

提交时间:2009-12-22

PDF 下载: 英文版 中文版pdf翻译中