基于分类的工程设计中伪数据集的效果-arXiv论文预印本中文版

基于分类的工程设计中伪数据集的效果

摘要：机器学习分类技术被广泛用于识别可行的设计领域并发现工程设计中的隐藏模式。准确的分类模型需要一个大的数据集; 然而，对于复杂的基于模拟的问题，生成一个大型数据集是昂贵的。在使用小型数据集进行训练之后，代理模型可以高效地生成大量的伪数据集。然而，代理建模可能会引入误差。本文研究了大型伪数据集和代理建模不确定性的相互作用。研究了四种广泛使用的方法，即朴素贝叶斯分类器，支持向量机，随机森林回归和人工神经网络进行分类。Kriging被用作基本的代理模型方法。结果表明，大型伪数据集提高了分类准确性，这取决于设计问题和分类算法。除了朴素贝叶斯之外，其他三种方法推荐使用伪数据来改善分类性能。此外，使用风力涡轮机设计问题说明了伪数据集对可行子空间识别的影响。大型伪数据集显着提高了识别的子空间边界，这可以通过分类模型很好地再现，除了朴素贝叶斯分类器。在代理建模的不确定性下，随机森林对识别可行设计领域边界具有较高的鲁棒性，而人工神经网络对不确定性表现出较高的敏感性，识别边界恶化。

作者：Xianping Du, Kai Zhang, Onur Bilgen, Laurent Burlion, and Hongyi Xu

论文ID：2107.05562

分类：Data Analysis, Statistics and Probability

分类简称：physics.data-an

提交时间：2021-07-13

PDF 下载： 英文版中文版pdf翻译中