开发一款完美的拼写检查器有多难?基于复杂网络方法的跨语言分析。
摘要:拼写错误检测和纠正在语言中的困难性通过概念化SpellNet——加权词网络得到了研究,其中边表示两个词之间的正字距离。我们为三种语言构建了SpellNet——孟加拉语、英语和印地语。通过适当的数学分析和/或直观的证明,我们从拼写检查相关问题的角度解释了SpellNet的不同拓扑指标。我们进行了很多有趣的观察,其中最重要的观察是在一种语言中出现实际单词错误的概率与SpellNet的平均加权度成正比,这一度量在印地语中最高,其次是孟加拉语和英语。
作者:Monojit Choudhury, Markose Thomas, Animesh Mukherjee, Anupam Basu and Niloy Ganguly
论文ID:physics/0703198
分类:Physics and Society
分类简称:physics.soc-ph
提交时间:2007-05-23