通过相变的涌现：机制景观与复杂系统中的通用收敛

arXiv cs.LG 2026/06/09 04:00 论文

emergence phase-transitions grokking neural-networks convergence complex-systems

摘要

本文介绍了层次涌现框架（HEF），该框架解释了在物理和信息约束下，通过机制景观中的相变，神经网络和生物进化等多样系统如何收敛到相似的内部表示。该框架通过111个grokking实验进行了实证验证，这些实验确认了通用收敛，并识别出一个临界能量阈值。

arXiv:2606.07563v1 Announce Type: new Abstract: 在机器学习、生物学和物理学中，独立演化的系统常常在微观细节截然不同的情况下，收敛到惊人相似的高级结构。Grokking电路在不同随机种子间收敛，进化谱系重新发现相似的新陈代谢解决方案，重整化流接近共同的固定点。我们提出层次涌现框架（HEF）作为此类收敛现象的候选通用性框架。HEF将涌现建模为受热力学和信息论约束的机制景观中的相变。该框架引入了一个临界能量阈值Ec，将竞争机制并存探索阶段与唯一最小成本机制主导的收敛阶段分开。在结构假设下，我们证明了物理可行性，推导出严格的度量收缩，并建立了收敛到与初始条件无关的唯一固定点表示。我们进一步通过有效信息和机制竞争熵将这一收敛结构与因果涌现联系起来。为了测试该框架，我们研究了模块化算术变换器中的延迟泛化（grokking），进行了111个实验。我们识别出一个可重复的Ec转变经验指纹：在92%的实验中，权重范数在grokking之前系统性达到峰值。归一化准确率曲线在tanh拐点处坍缩（R²=0.93），符合Landau-Ginzburg普适类，所有grokked模型收敛到0.9745±0.014，与初始化、权重衰减或训练比例无关（ANOVA p>0.13）。HEF并非作为涌现的通用理论提出，而是作为研究复杂系统中收敛现象的一个可证伪的数学框架。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:46

# 机理图景与复杂系统中的普适收敛  
来源：https://arxiv.org/html/2606.07563  

## 通过相变实现涌现：机理图景与复杂系统中的普适收敛（2026年5月）  

###### 摘要  

为什么独立训练的神经网络会收敛到相同的内部表征\[37 (https://arxiv.org/html/2606.07563#bib.bib37),23 (https://arxiv.org/html/2606.07563#bib.bib23)\]？为什么“顿悟”（grokking）——即记忆之后的突然泛化——在不同架构和任务中遵循普适统计规律\[42 (https://arxiv.org/html/2606.07563#bib.bib42)\]？为什么在993种酵母物种中，独立进化的谱系会反复趋向相同的代谢解决方案\[38 (https://arxiv.org/html/2606.07563#bib.bib38)\]？我们提出一个*候选*解释，用于说明这些现象共有的结构基序：当系统的能量预算越过临界阈值 \(E_c\) 时，竞争机制会发生相变，驱动系统收敛到由物理约束集 \(\mathcal{P}\) 决定的唯一不动点。我们并非声称能解释所有涌现现象，而是识别出学习、生物学和物理学中收敛现象背后反复出现的相变结构。简而言之：**许多涌现现象可被理解为在物理和信息约束下，机理图景中的相变。** 我们将此结构基序形式化为层次涌现框架（Hierarchical Emergence Framework, HEF），由一个六元组 \((R^{(1)}, \mathcal{L}, \mathcal{A}_0, \mathcal{G}, \mathrm{mode}, E)\) 以及 \(\mathcal{P} = (\mathcal{P}_{\mathrm{thermo}}, \mathcal{P}_{\mathrm{info}}, \Phi)\) 共同定义，其中翻译映射 \(\Phi\) 是建立在朗道尔原理和亚尔津斯基等式基础上的约束格序同构。由此导出三个定理。**物理可行性定理**保证所有生成的实体同时满足热力学和信息论约束。**能量-多样性定理**在 \(E_c\) 处建立了探索模式与收敛模式之间的相变。**普适特征收敛**则通过巴拿赫不动点定理得出：任何共享 \(\mathcal{P}\) 且运行在 \(E_c\) 以下的HEF实例，都会收敛到*相同*的不动点表征，与初始条件无关。**因果涌现定理**进一步表明，不动点 \(R_\infty\) 的有效信息\[21 (https://arxiv.org/html/2606.07563#bib.bib21)\]严格高于微观层次 \(R^{(1)}\)，且增益受一个可测量的训练动力学量约束。我们通过111个顿悟实验（\(p \in \{23,31,41,53,67,83,97\}\)，\(\lambda \in \{1,2\}\)，多个随机种子）对HEF进行了实证验证。**普适收敛得到确认**：所有经过顿悟的模型收敛到 \(0.9745 \pm 0.014\)，与 \(p\)、\(\lambda\) 或训练比例无关（ANOVA \(p > 0.13\)；CV = \(1.47\%\)）。识别出一个**新颖的 \(E_c\) 指纹**：在92%的运行中，权重范数 \(\|w\|^2\) 在顿悟前约1050步达到峰值，追踪了HEF的三阶段轨迹。准确率曲线塌缩成一个tanh扭结（\(R^2 = 0.93\)），将顿悟置于朗道-金兹堡平均场普适类中。G2标度关系 \(\Delta t \propto 1/(\mathrm{frac} \cdot p \cdot \lambda)\) 在七个素数上得到支持（\(\beta = -1.39 \pm 0.20\)，\(R^2 = 0.91\)）。HEF提出了**三个可证伪的跨领域预测**：(P1) 在相同系统发育距离下，厌氧酵母谱系比好氧谱系具有更高的基因组收敛度；(P2) 使用更大权重衰减训练的LLM会产生具有更高因果效力的表征；(P3) 存在一个临界的权重衰减阈值 \(\lambda_c(p) \in (2,4)\)，超过该阈值，顿悟将因机制匮乏而失败。我们提供了代码、数据和诊断工具包（hef-tools），以便独立复现并应用于新系统。

###### 摘要  
本补充信息（SI）提供了正文《层次涌现框架：从物理约束到普适收敛》中所有定理、引理和推论的完整、自包含证明。每个证明均分解为小的、可验证的步骤。这些阐述面向机器学习、理论物理和复杂系统领域的研究人员。特别关注度量压缩性质（A6），将其视为一个可经验验证的条件，该条件在机器学习实例中基于标准深度学习实践（谱归一化和权重衰减）成立，在其他实例（EOM、IFF、RSID）中则基于对数-索博列夫不等式或单调压缩。对于无法提供严格解析证明的部分，我们给出了明确的经验验证协议，并引用正文。

###### 目录  
1. 1引言 (https://arxiv.org/html/2606.07563#S1)  
   1. 1.1 三个谜题，一个原理 (https://arxiv.org/html/2606.07563#S1.SS1)  
   2. 1.2 HEF的贡献 (https://arxiv.org/html/2606.07563#S1.SS2)  
   3. 1.3 主要结果 (https://arxiv.org/html/2606.07563#S1.SS3)  
   4. 1.4 如何阅读本文 (https://arxiv.org/html/2606.07563#S1.SS4)  
   5. 1.5 论文组织 (https://arxiv.org/html/2606.07563#S1.SS5)  
2. 2 层次涌现框架 (https://arxiv.org/html/2606.07563#S2)  
   1. 2.1 原始集合与层次结构 (https://arxiv.org/html/2606.07563#S2.SS1)  
   2. 2.2 逻辑语言 (https://arxiv.org/html/2606.07563#S2.SS2)  
   3. 2.3 机制族 (https://arxiv.org/html/2606.07563#S2.SS3)  
   4. 2.4 生成规则与运行模式 (https://arxiv.org/html/2606.07563#S2.SS4)  
   5. 2.5 能量预算、规范测度与相关性权重 (https://arxiv.org/html/2606.07563#S2.SS5)  
   6. 2.6 完整框架元组 (https://arxiv.org/html/2606.07563#S2.SS6)  
3. 3 物理基础 (https://arxiv.org/html/2606.07563#S3)  
   1. 3.1 热力学约束 (https://arxiv.org/html/2606.07563#S3.SS1)  
   2. 3.2 信息论约束 (https://arxiv.org/html/2606.07563#S3.SS2)  
   3. 3.3 通过翻译映射 \(\Phi\) 实现一致性 (https://arxiv.org/html/2606.07563#S3.SS3)  
   4. 3.4 逻辑公式上的度量 (https://arxiv.org/html/2606.07563#S3.SS4)  
   5. 3.5 收敛的额外结构假设 (https://arxiv.org/html/2606.07563#S3.SS5)  
   6. 3.6 度量压缩的推导：范围与局限 (https://arxiv.org/html/2606.07563#S3.SS6)  
   7. 3.7 权重函数 (https://arxiv.org/html/2606.07563#S3.SS7)  
4. 4 物理可行性定理 (https://arxiv.org/html/2606.07563#S4)  
5. 5 能量预算与多样性-收敛权衡 (https://arxiv.org/html/2606.07563#S5)  
   1. 5.1 完备度量空间结构 (https://arxiv.org/html/2606.07563#S5.SS1)  
   2. 5.2 耦合公式的P-稳定性 (https://arxiv.org/html/2606.07563#S5.SS2)  
   3. 5.3 度量压缩引理 (https://arxiv.org/html/2606.07563#S5.SS3)  
   4. 5.4 能量-多样性权衡定理 (https://arxiv.org/html/2606.07563#S5.SS4)  
   5. 5.5 普适特征收敛 (https://arxiv.org/html/2606.07563#S5.SS5)  
   6. 5.6 \(E_c\) 的三种刻画 (https://arxiv.org/html/2606.07563#S5.SS6)  
6. 6 HEF不动点处的因果涌现 (https://arxiv.org/html/2606.07563#S6)  
   1. 6.1 为什么仅收敛不足以建立因果涌现 (https://arxiv.org/html/2606.07563#S6.SS1)  
   2. 6.2 定理 (https://arxiv.org/html/2606.07563#S6.SS2)  
7. 7 机理图景理论：什么决定了涌现 (https://arxiv.org/html/2606.07563#S7)  
   1. 7.1 命题A：领域决定形式，\(\mathcal{P}\) 决定类型 (https://arxiv.org/html/2606.07563#S7.SS1)  
   2. 7.2 命题B：机理图景决定普适类 (https://arxiv.org/html/2606.07563#S7.SS2)  
   3. 7.3 命题C：机制竞争熵约束因果效力 (https://arxiv.org/html/2606.07563#S7.SS3)  
   4. 7.4 一个涌现分类方案 (https://arxiv.org/html/2606.07563#S7.SS4)  
8. 8 实例化 (https://arxiv.org/html/2606.07563#S8)  
   1. 8.1 ML：LLM训练动力学与顿悟 (https://arxiv.org/html/2606.07563#S8.SS1)  
      1. 8.1.1 涌现如何形成：HEF三阶段轨迹 (https://arxiv.org/html/2606.07563#S8.SS1.SSS1)  
      2. 8.1.2 形式推导 (https://arxiv.org/html/2606.07563#S8.SS1.SSS2)  
      3. 8.1.3 小规模经验证据 (https://arxiv.org/html/2606.07563#S8.SS1.SSS3)  
   2. 8.2 EOM：前生物化学与进化生物学 (https://arxiv.org/html/2606.07563#S8.SS2)  
   3. 8.3 IFF：信息场论 (https://arxiv.org/html/2606.07563#S8.SS3)  
   4. 8.4 RSID：纳米粒子信号检测 (https://arxiv.org/html/2606.07563#S8.SS4)  
9. 9 实践者指南：将HEF应用于新系统 (https://arxiv.org/html/2606.07563#S9)  
   1. 9.1 步骤1：识别HEF元组 (https://arxiv.org/html/2606.07563#S9.SS1)  
   2. 9.2 步骤2：检测 \(E_c\) 指纹 (https://arxiv.org/html/2606.07563#S9.SS2)  
   3. 9.3 步骤3：分类涌现类型 (https://arxiv.org/html/2606.07563#S9.SS3)  
   4. 9.4 步骤4：通过HEF预测进行干预 (https://arxiv.org/html/2606.07563#S9.SS4)  
   5. 9.5 `hef-tools` 包 (https://arxiv.org/html/2606.07563#S9.SS5)  
10. 10 相关工作 (https://arxiv.org/html/2606.07563#S10)  
11. 11 结论 (https://arxiv.org/html/2606.07563#S11)  
12. A 示例：\(p=97\) 时的顿悟延迟 (https://arxiv.org/html/2606.07563#A1)  
13. B 由成本最小性导出压缩系数的证明 (https://arxiv.org/html/2606.07563#A2)  
14. C 可复现性包 (https://arxiv.org/html/2606.07563#A3)  
15. S1 假设总结 (https://arxiv.org/html/2606.07563#A1a)  
16. S2 证明流程 (https://arxiv.org/html/2606.07563#A2a)  
17. S3 符号与预备知识 (https://arxiv.org/html/2606.07563#A3a)  
    1. S3.1 物理属性空间 (https://arxiv.org/html/2606.07563#A3.SS1)  
    2. S3.2 公式度量 (https://arxiv.org/html/2606.07563#A3.SS2)  
    3. S3.3 豪斯多夫度量 (https://arxiv.org/html/2606.07563#A3.SS3)  
18. S4 物理基础：翻译映射 \(\Phi\) (https://arxiv.org/html/2606.07563#A4)  
19. S5 物理可行性定理 (https://arxiv.org/html/2606.07563#A5)  
20. S6 压缩系数 (https://arxiv.org/html/2606.07563#A6)  
21. S7 ML实例化中的度量压缩 (https://arxiv.org/html/2606.07563#A7)  
    1. S7.1 背景：神经网络层的利普希茨性质 (https://arxiv.org/html/2606.07563#A7.SS1)  
    2. S7.2 论据A：通过单调压缩实现结构压缩 (https://arxiv.org/html/2606.07563#A7.SS2)  
    3. S7.3 论据B：不动点附近的动力学压缩 (https://arxiv.org/html/2606.07563#A7.SS3)  
    4. S7.4 显式压缩常数与总结 (https://arxiv.org/html/2606.07563#A7.SS4)  
    5. S7.5 在类型保持原子替换下的P-稳定性 (https://arxiv.org/html/2606.07563#A7.SS5)  
    6. S7.6 开放实验协议：G1测试 (https://arxiv.org/html/2606.07563#A7.SS6)  
22. S8 能量-多样性权衡与普适收敛 (https://arxiv.org/html/2606.07563#A8)  
23. S9 不动点处的因果涌现 (https://arxiv.org/html/2606.07563#A9)  
    1. S9.1 有效信息 (https://arxiv.org/html/2606.07563#A9.SS1)  
    2. S9.2 主要因果涌现定理 (https://arxiv.org/html/2606.07563#A9.SS2)  
24. S10 顿悟延迟：条件推导 (https://arxiv.org/html/2606.07563#A10)  
25. S11 结果总结 (https://arxiv.org/html/2606.07563#A11)  
26. S12 讨论：关于A6的状态 (https://arxiv.org/html/2606.07563#A12)  
27. S13 参考文献 (https://arxiv.org/html/2606.07563#A13)  
28. 参考文献 (https://arxiv.org/html/2606.07563#bib)  

## 1 引言  

### 1.1 三个谜题，一个原理  

考虑来自不同领域的三项经验观察。  
**神经网络收敛。** Olah 等人\[37 (https://arxiv.org/html/2606.07563#bib.bib37)\] 表明，独立训练的CNN会在对应层中发展出相同的弯曲检测器、高低频检测器和多频检测器。Huh 等人\[23 (https://arxiv.org/html/2606.07563#bib.bib23)\] 将其扩展到跨模态和跨架构收敛，并命名为**柏拉图表征假说**。目前尚无定量解释说明*为什么*收敛是普适的，而非特定于架构。  
**顿悟。** Power 等人\[42 (https://arxiv.org/html/2606.07563#bib.bib42)\] 发现，在模块化算术上训练的Transformer会在记忆后数千步突然泛化。延迟 \(\Delta t\) 在不同随机种子间可重复，遵循系统性的标度律，并伴随离散电路转换\[41 (https://arxiv.org/html/2606.07563#bib.bib41)\]。现有解释说明了*顿悟会发生*，但未说明*何时*或*为什么*延迟服从 \(\Delta t \propto 1/(\mathrm{frac} \cdot p \cdot \lambda)\)。  
**趋同进化。** Opulente 等人\[38 (https://arxiv.org/html/2606.07563#bib.bib38)\] 记录到，在993种酵母物种中，80%的代谢转变期间，相同的基石基因家族趋同扩张——这些谱系相隔数亿年的独立进化。Conway Morris\[11 (https://arxiv.org/html/2606.07563#bib.bib11),12 (https://arxiv.org/html/2606.07563#bib.bib12)\] 认为这种模式普遍存在。标准进化理论将其归因于共享的选择压力，但未提供定量解释说明*为什么*趋同如此频繁且具体。  
我们提出，所有这三种现象都是同一原理的实例：**当能量预算越过临界阈值 \(E_c\) 时，竞争机制会塌缩到唯一的不动点，该不动点仅由物理约束决定。** 本文将这一原理形式化、证明并经验测试，称为层次涌现框架（HEF）。

### 1.2 HEF的贡献  

HEF并非一种普适的涌现理论，而是一个**候选普适框架**：它提出许多涌现现象共享一种共同的相变结构，该结构受物理和信息约束下的机制竞争支配。超越现有论述\[4 (https://arxiv.org/html/2606.07563#bib.bib4),10 (https://arxiv.org/html/2606.07563#bib.bib10),8 (https://arxiv.org/html/2606.07563#bib.bib8),21 (https://arxiv.org/html/2606.07563#bib.bib21)\]，HEF做出了四项贡献：  

1. **构造性规范。** HEF不是涌现的描述，而是一个算法（算法1 (https://arxiv.org/html/2606.07563#alg1)），从第一原理生成涌现实体。  
2. **定量阈值。** 临界能量 \(E_c\) 被构造性定义（定理 S8.1 (https://arxiv.org/html/2606.07563#A8.Thmtheorem1)），并具有可测量的经验指纹（权重范数峰值，第8.1.3节 (https://arxiv.org/html/2606.07563#S8.SS1.SSS3)）。  
3. **普适类识别。** \(\alpha^*\) 附近的机理图景决定了涌现的*类型*——平滑、尖点、平坦、层次——与领域词汇无关（第7节 (https://arxiv.org/html/2606.07563#S7)，表1 (https://arxiv.org/html/2606.07563#S7.T1)）。  
4. **可证伪的跨领域预测。** HEF在机器学习、进化生物学和纳米医学中预言了具体的、可测试的结果（预测P1–P3，第11节 (https://arxiv.org/html/2606.07563#S11)）。

### 1.3 主要结果  

##### 物理可行性定理（第4节 (https://arxiv.org/html/2606.07563#S4)）  
在假设A1–A4下，每个层次上的每个实体通过 \(\Phi\) 同时满足 \(\mathcal{P}_{\mathrm{thermo}}\) 和 \(\mathcal{P}_{\mathrm{info}}\)。  

##### 能量-多样性定理（第5节 (https://arxiv.org/html/2606.07563#S5)）  
\(|R^{(k)}(E)|\) 在 \(E\) 上非递减；\(E_c\) 是拐点；对于 \(E < E_c\)，\(|R^{(k)}(E)|\) 很大（探索）；对于 \(E > E_c\)，\(|R^{(k)}(E)|\) 收缩到唯一不动点 \(R_\infty\)。  

##### 普适特征收敛（第5.5节 (https://arxiv.org/html/2606.07563#S5.SS5)）  
任何两个共享 \(\mathcal{P}\) 且运行在 \(E > E_c\) 的HEF实例，都会收敛到相同的 \(R_\infty\)，与初始条件独立。  

##### 因果涌现定理（第6节 (https://arxiv.org/html/2606.07563#S6)）  
\(\mathrm{EI}(R_\infty) > \mathrm{EI}(R^{(1)})\)。EI增益 \(e

通过相变的涌现：机制景观与复杂系统中的通用收敛

相似文章

驱动信息系统中的相变：学习理论与非平衡化学的双场视角

从近似到涌现：深度学习理论

特征抽奖？概念涌现的分岔理论

以人为中心的学习机制：熵正则化表示学习的动态框架

噪声驱动的亚稳态逃逸解释了深度神经网络中的Grokking现象

提交意见反馈