@FinanceYF5: 柏拉图式表征假说,大多是一种统计幻觉。 新研究显示,规模化 AI 模型看似出现的“全局收敛”,其实是模型宽度和深度选择偏差造成的数学伪影。 一旦校准,全局收敛就会消失。

X AI KOLs Following 论文

摘要

新研究指出,规模化AI模型中看似出现的“全局收敛”实际是模型宽度和深度选择偏差造成的统计幻觉,一旦校准即消失。

柏拉图式表征假说,大多是一种统计幻觉。 新研究显示,规模化 AI 模型看似出现的“全局收敛”,其实是模型宽度和深度选择偏差造成的数学伪影。 一旦校准,全局收敛就会消失。🧵 https://t.co/dVuL8kN9n8
查看原文
查看缓存全文

缓存时间: 2026/06/29 04:28

柏拉图式表征假说,大多是一种统计幻觉。

新研究显示,规模化 AI 模型看似出现的“全局收敛”,其实是模型宽度和深度选择偏差造成的数学伪影。

一旦校准,全局收敛就会消失。🧵 https://t.co/dVuL8kN9n8

The Platonic Representation Hypothesis is largely a statistical illusion.

New research shows that the apparent “global convergence” in scaled-up AI models is actually a mathematical artifact caused by selection bias in model width and depth.

Once calibrated, global convergence disappears.

2/ 在《Revisiting the Platonic Representation Hypothesis: An Aristotelian View》中,Fabian Groeger、Shuo Wen 和 Maria Brbic 指出,标准表征相似性指标会被网络维度系统性地偏置。

来看看数学部分。

3/ 混杂因素 1:模型宽度。

在完全独立的零假设下,交叉协方差的平方 Frobenius 范数期望不会消失。

Centered Kernel Alignment(CKA)等指标的原始基线按 O(d/n) 缩放,会在宽模型中模拟出对齐效果。

4/ 混杂因素 2:模型深度。

为寻找对齐,研究者会遍历所有层对(La x Lb)并报告最大值。

极值理论证明,期望最大值会随搜索空间变大:E[T_max] <= mu + Csigmasqrt(log M)。更深的模型会“碰巧”显得更对齐。

5/ 作者提出一种与指标无关、基于置换的校准方法。

他们不是逐格修正,而是在一个模型的所有层上做一致洗牌,建立最大分数的经验零分布。

低于零分布的分数映射为 0。

6/ 将该框架用于 204 个视觉-语言模型对后,结果出现明显分裂:

• 全局谱指标(如 CKA)校准后归零。 • 局部邻域指标(mKNN)依然稳健。

模型一致的是拓扑邻域,而不是全局空间。

7/ 局限:该框架假设样本在零假设下可交换。

如果数据集存在序列、空间或层级依赖,朴素置换会失效,并抬高 I 类错误。

它还按 O(K * La * Lb) 扩展,大模型实验成本很高。

8/ 这是一次重要的纠偏,它重塑了基础模型的评估方式。

以后不能再跨不同模型规模直接报告原始相似性分数。

没有校准,任何关于表征收敛的结论在数学上都站不住。

9/ 这让视角从柏拉图式观点(一个完美的全局度量空间)转向亚里士多德式观点(共享的局部拓扑关系)。

模型学到的不是同一个坐标空间,而是相同的相对邻居关系。

10/ 完整评述: https://arxiviq.substack.com/p/revisiting-the-platonic-representation…

论文: https://arxiv.org/abs/2602.14486

表征对齐该用局部指标还是全局指标?欢迎讨论。

11/ 可视化:亚里士多德式修正 vs 柏拉图式幻觉。

以上就是全部,原作者 @che_shr_cat

如果您喜欢这个主题:

1.关注我(@FinanceYF5) 2. 点赞+转发下面第一条帖子

有人用数字地图把纽约曼哈顿的街区全标出来了

Harlem、SoHo、Hell’s Kitchen、Tribeca、Financial District……

每个街区颜色不同,配上卫星俯拍,这座城市“看懂了“

收藏备用

相似文章

@FinanceYF5: 2/ 他评价模型从不看benchmark数字 他真正在意的只有一件事: 【模型的思维形状】 ——它能多深地理解用户意图 ——它能迭代思考到什么程度 ——它让你感觉"对面有没有人" Fable让他感受到了这种活感 "像回到了2023年"

X AI KOLs Following

该推文强调评价AI模型时不应只看benchmark数字,而应关注模型的"思维形状"——理解用户意图的深度、迭代思考能力以及让用户感受到"对面有人"的活感。作者认为Fable模型在这方面表现出色,让人想起2023年的体验。

@AYi_AInotes: 说个反常识的判断, 80% 的 Agent 生产崩溃,跟模型智商没半毛钱关系, 基本都死在上下文溢出、工具调错、子代理失控上, 2026 年真正的分水岭在 Harness 和 Loop,不是模型啊, 兄弟@wizardly_ai 这篇工程…

X AI KOLs Timeline

这篇文章指出80%的AI Agent生产崩溃并非模型智商问题,而是由上下文溢出、工具调错、子代理失控引起。作者强调2026年的分水岭在于Harness(办公室制度、安保系统)和Loop(自动循环机制),而非模型本身。

@Phoenixyin13: 这篇来自Meta FAIR的最新重磅论文,旨在告诉AI行业一句重要的风向标: “大模型数据,正在迎来智能科学家时代。” 在这篇论文里, 一个经过 Autodata 精准洗礼的 4B小模型,在法律推理任务上,不仅碾压了传统合成数据训练出来的…

X AI KOLs Timeline

Meta FAIR最新论文提出Autodata方法,通过智能数据科学家Agent自主生成和优化高质量数据,使4B小模型在法律推理任务上击败397B大模型,预示数据质量可弥补参数量鸿沟,为数据pipeline和scaling提供新思路。