BERT自动分类开放性问题

摘要:使用人工将开放式问题的文本数据手动编码到不同的类别中是费时且昂贵的。自动编码使用统计/机器学习在少量手动编码的文本答案上进行训练。最近,在大量不相关数据上预先训练通用语言模型,然后将模型调整到特定应用程序上,在自然语言处理中被证明是有效的。使用两个数据集,我们经验性地调查了BERT(当前占统治地位的预训练语言模型)是否比其他非预训练统计学习方法更有效地自动编码开放式问题的答案。我们发现,微调预训练的BERT参数是必要的,否则BERT无法竞争。其次,我们发现,在训练100个手动编码的观察结果时,微调的BERT在分类准确度方面几乎与非预训练的统计学习方法相当。然而,当有更多手动编码的观察结果可用于训练时(例如200-400个),BERT的相对优势迅速增加。我们得出结论,对于自动编码开放式问题的答案,BERT比支持向量机和提升等非预训练模型更可取。

作者:Hyukjun Gweon, Matthias Schonlau

论文ID:2209.06178

分类:Applications

分类简称:stat.AP

提交时间:2023-04-27

PDF 下载: 英文版 中文版pdf翻译中