面向语言模型编码社会科学数据集-arXiv论文预印本中文版

面向语言模型编码社会科学数据集

摘要：使用人工编码来对大量的文本进行编码是研究的重要组成部分，然而，编码过程在不同应用中的资源需求和变异性很高。尽管有些自动化编码的尝试已经达到了人类水平的准确性，但是这些方法通常需要大量手工标注的训练样本，这使得它们对小规模的研究项目不适用，并且对大规模项目来说成本很高。最近在人工智能领域的一个具体工具——语言模型（LMs）取得了重要进展，它为解决这个问题提供了一种解决方案。计算机科学中的研究表明，LMs能够对文本进行分类，而不需要使用其他方法的财务和人力资源。为了证明LMs在这个政治科学领域的可能性，我们使用了其中一个最先进的LMs——GPT-3作为合成编码器，并将其与人类编码器进行对比。我们发现，GPT-3能够达到典型人类编码器的性能，并且相较于其他机器学习方法在编码文本方面具有优势。我们在不同领域使用了非常不同的编码过程来验证了这一点。这提供了令人兴奋的证据，表明语言模型可以成为在各种应用中对开放式文本进行编码的重要进步。

作者：Christopher Michael Rytting, Taylor Sorensen, Lisa Argyle, Ethan Busby, Nancy Fulda, Joshua Gubler, David Wingate

论文ID：2306.02177

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-06

PDF 下载： 英文版中文版pdf翻译中