大多数信息样本的关键性：一种贝叶斯模型选择方法-arXiv论文预印本中文版

大多数信息样本的关键性：一种贝叶斯模型选择方法

摘要：高维数据在深度欠采样区域的贝叶斯模型选择方法讨论。数据基于可能的离散状态$s$的表示，如观察者所定义，并由状态的$M$个观测组成。这种方法表明，对于给定的样本大小$M$，并不能区分样本中观察到的所有状态。相反，只能解决被采样状态$s$的一个划分。这样的划分通过状态之间的破坏对称的过程，随着样本大小的增加而变得越来越细。这使我们能够区分观察者所定义的状态$s$的表示的分辨率，其由$s$的熵定义，以及相关性，其由划分$q\_s$的熵定义。对于给定的样本大小，相关性与分辨率之间存在非单调关系。此外，我们对最相关的样本进行了表征，并证明它们具有幂律频率分布，通常被视为"临界性"的特征。这表明"临界性"反映了复杂系统状态的给定表示的相关性，并不一定需要特定的自组织机制达到临界点。

作者：Ariel Haimovici, Matteo Marsili

论文ID：1502.00356

分类：Data Analysis, Statistics and Probability

分类简称：physics.data-an

提交时间：2015-10-28

PDF 下载： 英文版中文版pdf翻译中