@FinanceYF5: 柏拉图式表征假说，大多是一种统计幻觉。新研究显示，规模化 AI 模型看似出现的“全局收敛”，其实是模型宽度和深度选择偏差造成的数学伪影。一旦校准，全局收敛就会消失。

X AI KOLs Following 2026/06/28 00:39 论文

摘要

新研究指出，规模化AI模型中看似出现的“全局收敛”实际是模型宽度和深度选择偏差造成的统计幻觉，一旦校准即消失。

柏拉图式表征假说，大多是一种统计幻觉。新研究显示，规模化 AI 模型看似出现的“全局收敛”，其实是模型宽度和深度选择偏差造成的数学伪影。一旦校准，全局收敛就会消失。🧵 https://t.co/dVuL8kN9n8

查看原文

查看缓存全文

缓存时间: 2026/06/29 04:28

柏拉图式表征假说，大多是一种统计幻觉。

新研究显示，规模化 AI 模型看似出现的“全局收敛”，其实是模型宽度和深度选择偏差造成的数学伪影。

一旦校准，全局收敛就会消失。🧵 https://t.co/dVuL8kN9n8

The Platonic Representation Hypothesis is largely a statistical illusion.

New research shows that the apparent “global convergence” in scaled-up AI models is actually a mathematical artifact caused by selection bias in model width and depth.

Once calibrated, global convergence disappears.

2/ 在《Revisiting the Platonic Representation Hypothesis: An Aristotelian View》中，Fabian Groeger、Shuo Wen 和 Maria Brbic 指出，标准表征相似性指标会被网络维度系统性地偏置。

来看看数学部分。

3/ 混杂因素 1：模型宽度。

在完全独立的零假设下，交叉协方差的平方 Frobenius 范数期望不会消失。

Centered Kernel Alignment（CKA）等指标的原始基线按 O(d/n) 缩放，会在宽模型中模拟出对齐效果。

4/ 混杂因素 2：模型深度。

为寻找对齐，研究者会遍历所有层对（La x Lb）并报告最大值。

极值理论证明，期望最大值会随搜索空间变大：E[T_max] <= mu + Csigmasqrt(log M)。更深的模型会“碰巧”显得更对齐。

5/ 作者提出一种与指标无关、基于置换的校准方法。

他们不是逐格修正，而是在一个模型的所有层上做一致洗牌，建立最大分数的经验零分布。

低于零分布的分数映射为 0。

6/ 将该框架用于 204 个视觉-语言模型对后，结果出现明显分裂：

• 全局谱指标（如 CKA）校准后归零。 • 局部邻域指标（mKNN）依然稳健。

模型一致的是拓扑邻域，而不是全局空间。

7/ 局限：该框架假设样本在零假设下可交换。

如果数据集存在序列、空间或层级依赖，朴素置换会失效，并抬高 I 类错误。

它还按 O(K * La * Lb) 扩展，大模型实验成本很高。

8/ 这是一次重要的纠偏，它重塑了基础模型的评估方式。

以后不能再跨不同模型规模直接报告原始相似性分数。

没有校准，任何关于表征收敛的结论在数学上都站不住。

9/ 这让视角从柏拉图式观点（一个完美的全局度量空间）转向亚里士多德式观点（共享的局部拓扑关系）。

模型学到的不是同一个坐标空间，而是相同的相对邻居关系。

10/ 完整评述： https://arxiviq.substack.com/p/revisiting-the-platonic-representation…

论文： https://arxiv.org/abs/2602.14486

表征对齐该用局部指标还是全局指标？欢迎讨论。

11/ 可视化：亚里士多德式修正 vs 柏拉图式幻觉。

以上就是全部，原作者 @che_shr_cat

如果您喜欢这个主题：

1.关注我（@FinanceYF5） 2. 点赞+转发下面第一条帖子

有人用数字地图把纽约曼哈顿的街区全标出来了

Harlem、SoHo、Hell’s Kitchen、Tribeca、Financial District……

每个街区颜色不同，配上卫星俯拍，这座城市“看懂了“

收藏备用

相似文章

@FinanceYF5: 2/ 他评价模型从不看benchmark数字他真正在意的只有一件事：【模型的思维形状】 ——它能多深地理解用户意图 ——它能迭代思考到什么程度 ——它让你感觉"对面有没有人" Fable让他感受到了这种活感 "像回到了2023年"

X AI KOLs Following

该推文强调评价AI模型时不应只看benchmark数字，而应关注模型的"思维形状"——理解用户意图的深度、迭代思考能力以及让用户感受到"对面有人"的活感。作者认为Fable模型在这方面表现出色，让人想起2023年的体验。

@AYi_AInotes: 说个反常识的判断， 80% 的 Agent 生产崩溃，跟模型智商没半毛钱关系，基本都死在上下文溢出、工具调错、子代理失控上， 2026 年真正的分水岭在 Harness 和 Loop，不是模型啊，兄弟@wizardly_ai 这篇工程…

X AI KOLs Timeline

这篇文章指出80%的AI Agent生产崩溃并非模型智商问题，而是由上下文溢出、工具调错、子代理失控引起。作者强调2026年的分水岭在于Harness（办公室制度、安保系统）和Loop（自动循环机制），而非模型本身。

@FinanceYF5: AI应用层的反击 1/ 大模型公司正在被反向蚕食 Cursor、Decagon、Harvey、Notion都在干同一件事：从API搬到自训模型。不是为了省钱，是为了拿回飞轮。

X AI KOLs Following

AI应用层公司如Cursor、Decagon、Harvey、Notion正从使用大模型API转向自训练模型，这一趋势旨在重新掌控数据飞轮而非仅仅节省成本。

@Phoenixyin13: 这篇来自Meta FAIR的最新重磅论文，旨在告诉AI行业一句重要的风向标： “大模型数据，正在迎来智能科学家时代。” 在这篇论文里，一个经过 Autodata 精准洗礼的 4B小模型，在法律推理任务上，不仅碾压了传统合成数据训练出来的…

X AI KOLs Timeline

Meta FAIR最新论文提出Autodata方法，通过智能数据科学家Agent自主生成和优化高质量数据，使4B小模型在法律推理任务上击败397B大模型，预示数据质量可弥补参数量鸿沟，为数据pipeline和scaling提供新思路。

@FinanceYF5: 3年的 AI 进步 ModelScope（左） Grok Imagine 1.5（右）

X AI KOLs Following

展示了三年来的AI进步：左侧为ModelScope，右侧为Grok Imagine 1.5。

相似文章

@AYi_AInotes: 说个反常识的判断， 80% 的 Agent 生产崩溃，跟模型智商没半毛钱关系， 基本都死在上下文溢出、工具调错、子代理失控上， 2026 年真正的分水岭在 Harness 和 Loop，不是模型啊， 兄弟@wizardly_ai 这篇工程…

@FinanceYF5: AI应用层的反击 1/ 大模型公司正在被反向蚕食 Cursor、Decagon、Harvey、Notion都在干同一件事：从API搬到自训模型。 不是为了省钱，是为了拿回飞轮。

@FinanceYF5: 3年的 AI 进步 ModelScope（左） Grok Imagine 1.5（右）

提交意见反馈

@AYi_AInotes: 说个反常识的判断， 80% 的 Agent 生产崩溃，跟模型智商没半毛钱关系，基本都死在上下文溢出、工具调错、子代理失控上， 2026 年真正的分水岭在 Harness 和 Loop，不是模型啊，兄弟@wizardly_ai 这篇工程…

@FinanceYF5: AI应用层的反击 1/ 大模型公司正在被反向蚕食 Cursor、Decagon、Harvey、Notion都在干同一件事：从API搬到自训模型。不是为了省钱，是为了拿回飞轮。