大多数信息丰富的表征中出现统计关键性

摘要:统计临界性的出现,即出现幂律频率分布,是在样本对生成过程具有最大信息量时发生的。为了得出这个结论,我们首先将样本中不同结果发生频率视为携带有关生成过程有用信息的变量。我们将频率的熵称为相关性,并给出了信息位数的上界。这与数据的熵不同,我们将其作为分辨率的度量。具有在给定分辨率下最大化相关性的样本-我们称之为最大信息样本-表现出统计临界性。特别地,Zipf定律在分辨率(即压缩)和相关性的最佳权衡处出现。作为副产品,我们得出了在没有关于生成模型的先验知识的情况下,可以从数据集中估计的最大参数数量的限制。 此外,我们将临界性与数据生成过程的统计特性相关联。我们表明,由于渐近等分性质的浓度,最大程度地提供有关数据生成过程的信息的表示以能量级的指数分布方式特征。这是由于最小熵原则的结果,它是统计力学中的最大熵原则的共轭。这解释了为什么最大信息样本中的统计临界性不需要参数精细调整。

作者:Ryan John Cubero, Junghyo Jo, Matteo Marsili, Yasser Roudi, Juyong Song

论文ID:1808.00249

分类:Data Analysis, Statistics and Probability

分类简称:physics.data-an

提交时间:2019-07-09

PDF 下载: 英文版 中文版pdf翻译中