《圣典之间的相似性与不同之处的文本挖掘发现》

摘要:神圣文本的仔细研究揭示了有关人类心理学、社会组织方式以及真理和上帝等术语的宝贵见解。要改进和加深对神圣文本的理解,比较和区分它们至关重要。为了达到这个目的,我们使用了一个包含九个神圣经文的数据集。本研究涉及《古兰经》、亚洲经文《道德经》、佛教经典、瑜伽经和奥义书,以及圣经中的四本书,《箴言》、《传道书》、《以斯帖记》和《智慧篇》。这些经文基于自然语言处理(NLP)进行分析,创建了一个称为文档术语矩阵(DTM)的频率数学表示。在进行这种分析后,我们应用了监督学习和无监督学习等机器学习方法进行分类。在这里,我们使用多项式朴素贝叶斯(MNB)、超级矢量机(SVM)、随机森林(RF)和K最近邻(KNN)。我们发现,在这些方法中,MNB能够以约85.84\%的准确率预测一个神圣文本的类别。

作者:Younous Mofenjou Peuriekeu, Victoire Djimna Noyum, Cyrille Feudjio, Alkan Goktug and Ernest Fokoue

论文ID:2102.04421

分类:Other Statistics

分类简称:stat.OT

提交时间:2021-02-09

PDF 下载: 英文版 中文版pdf翻译中