摘要:词在文本中的分布应该是均匀的,这导致了Heaps定律,即单词类型的数量可以用文本中的标记数的幂律来表示。我们开发了一个“叠加”模型,导致单词出现次数(或频率)的数量的渐近幂律分布,即Zipf定律。该模型与观察结果相吻合。
作者:Kim Chol-jun
论文ID:2305.15413
分类:Physics and Society
分类简称:physics.soc-ph
提交时间:2023-05-26
PDF 下载: 英文版 中文版pdf翻译中