低和高和平国家新闻媒体中的词差异：自然语言处理和机器学习揭示-arXiv论文预印本中文版

低和高和平国家新闻媒体中的词差异：自然语言处理和机器学习揭示

摘要：和平的语言是维持和平社会进程的反映和支持，而仇恨言论则会引发暴力和破坏。本研究利用现有的和平指标、机器学习和在线新闻媒体源，识别与低和平与高和平国家最相关的词语特征。由于每个和平指标衡量的社会属性不同，对于这些指标的数值并没有一致的共识。然而，在低和平和高和平极端国家方面，这些指标的一致性更高。因此，本研究采用数据驱动的方法，找出最能区分低和平和高和平国家的关键词。本研究不是根据理论框架预测哪些词语更有可能出现在低和平和高和平国家中，然后在新闻媒体中寻找这些词语，而是利用自然语言处理和机器学习技术，识别出最准确地将一个国家分类为低和平或高和平的词语。一旦机器学习模型通过极端低和平和高和平国家的词频进行训练，该模型也可以用来计算这些国家以及其他中等和平国家的定量和平指数。该模型成功地为中等和平国家产生了定量和平指数，其数值介于低和平和高和平之间，即使它们不在训练集中。本研究展示了自然语言处理和机器学习如何帮助生成社会系统的新的定量测量方法，即语言差异导致不同和平水平国家的定量和平指数。

作者：Larry S. Liebovitch (1 and 2), William Powers (1), Lin Shi (1), Allegra Chen-Carrel (3), Philippe Loustaunau (4), Peter T. Coleman (2) ((1) Queens College City University of New York, (2) Columbia University, (3) University of San Francisco, (4) Vista Consulting)

论文ID：2305.12537

分类：Computers and Society

分类简称：cs.CY

提交时间：2023-05-23

PDF 下载： 英文版中文版pdf翻译中